Методика определения возраста автора текста на основе метрик удобочитаемости и лексического разнообразия

Скачать текст статьи в формате PDF

Авторы: Соболев А. А., Федотова А. М., Куртукова А. В., Романов А. С., Шелупанов А. А.

Аннотация: Описана методика определения возраста автора анонимного текста, написанного на русском языке. Рассмотрены основополагающие работы предметной области и методы классификации: метод опорных векторов, наивный байесовский классификатор, сверточные и рекуррентные нейронные сети, fastText и BERT. Для проведения исследования использовался собственный набор данных, содержащий 1,5 миллиона комментариев пользователей социальных сетей. Отдельные эксперименты посвящены оценке влияния различных методов векторизации текста и фильтрации фотографий пользователей социальных сетей при помощи компьютерного зрения на точность классификации. В результате серии экспериментов, направленных на оценку эффективности использованных методов и отбора информативных признаков, достигнута точность определения возраста автора анонимного текста 83,2%.

Ключевые слова: атрибуция, определение возраста, анализ текста, машинное обучение, нейронные сети, отбор признаков

Библиография статьи: Соболев А. А. Методика определения возраста автора текста на основе метрик удобочитаемости и лексического разнообразия / А. А. Соболев [и др.] // Доклады ТУСУР. – 2022. – Т. 25, № 2. – С. 45–52. DOI: 10.21293/1818-0442-2022-25-2-45-52

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru