Мир науки. Социология, филология, культурология
           

2021. — Т 12. — №4 - перейти к содержанию номера...

Постоянный адрес этой страницы - https://sfk-mn.ru/21scsk421.html

This article metadata is also available in English

Полный текст статьи в формате PDF (объем файла: 537.2 Кбайт)


Ссылка для цитирования этой статьи:

Самойлова, Т. А. Сравнительное исследование эффективности алгоритмов классификации данных в социологическом анализе цветонаименований / Т. А. Самойлова, Ю. А. Грибер // Мир науки. Социология, филология, культурология. — 2021. — Т 12. — №4. — URL: https://sfk-mn.ru/PDF/21SCSK421.pdf (дата обращения: 12.12.2024).


Сравнительное исследование эффективности алгоритмов классификации данных в социологическом анализе цветонаименований

Самойлова Татьяна Аркадьевна
ФГБОУ ВО «Смоленский государственный университет», Смоленск, Россия
Доцент кафедры «Информатики»
Кандидат технических наук, доцент
E-mail: tatsamoilova24@gmail.com
РИНЦ: https://elibrary.ru/author_profile.asp?id=100995

Грибер Юлия Александровна
ФГБОУ ВО «Смоленский государственный университет», Смоленск, Россия
Профессор кафедры «Социологии и философии», директор «Лаборатории цвета»
Доктор культурологии
E-mail: y.griber@gmail.com
ORCID: https://orcid.org/0000-0002-2603-5928
РИНЦ: https://elibrary.ru/author_profile.asp?id=303167
Researcher ID: https://www.researcherid.com/rid/AAG-4410-2019
SCOPUS: https://www.scopus.com/authid/detail.url?authorId=56809444600

Аннотация. В статье представлено сравнительное исследование различных алгоритмов классификации для прогнозирования пола респондента по его ответам в онлайн-эксперименте, направленном на изучение социальной дифференциации системы цветонаименований русского языка. Материалом исследования стали данные онлайн-эксперимента (http://colournaming.com), в котором в 2018–2020 годах приняли участие 2457 носителей русского языка (1402 женщины, 1055 мужчин), принадлежащих к разным возрастным группам в диапазоне от 16 до 98 лет (средний возраст — 41.36 лет, SD = 17.71). Каждый из полученных в ходе исследования ответов (N = 55515) содержал ряд принципиально различных по характеру признаков, фиксировавших не только координаты цветового образца в системе CIELAB и присвоенное ему цветонаименование (простое или сложное слово, словосочетание), но и социально-демографическую информацию о поле и возрасте респондента, месте его рождения и постоянного проживания, уровне образования и профессии. Авторы анализируют различные алгоритмы классификации с использованием программных библиотек NumPy, Pandas, Scikit-learn для языка программирования Python. Эффективность классификаторов оценивается по таким параметрам, как точность, полнота, F-мера и кривая ошибок. Результаты моделирования показывают, что алгоритм дерева решений классифицирует данные с точностью 92 % и качеством, соответствующим значению AUC = 0,99. Это значит, что именно его лучше всего использовать в обработке и анализе полученных данных. Представленная в работе методика оценки эффективности алгоритма классификации с использованием комплекса взаимодополняющих метрик может использоваться в качестве модели для выбора наиболее подходящего программного средства с учетом специфики конкретного случая в дальнейших социологических исследованиях.

Ключевые слова: эксперимент; социологический анализ данных; социальная дифференциация языка; цветонаименования; машинное обучение; классификация; Phyton

Скачать

Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2542-0577 (Online)

Уважаемые читатели! Комментарии к статьям принимаются на русском и английском языках.
Комментарии проходят премодерацию, и появляются на сайте после проверки редактором.
Комментарии, не имеющие отношения к тематике статьи, не публикуются.

Добавить комментарий