Применение методов машинного обучения и отбора признаков на основе генетического алгоритма в решении задачи определения автора русскоязычного текста для кибербезопасности
Скачать текст статьи в формате PDF
Авторы: Куртукова А. В., Романов А. С., Федотова А. М., Шелупанов А. А.
Аннотация: Исследуются подходы к определению автора текста на естественном языке, достоинства и недостатки этих подходов. Процесс идентификации автора русскоязычного текста осуществляется с использованием классических алгоритмов машинного обучения и архитектур нейронных сетей (в том числе fastText, CNN и LSTM и их гибриды, BERT). Оценка эффективности моделей проводится на корпусе сообщений пользователей социальных сетей. Отдельный эксперимент посвящен отбору информативных признаков с помощью генетического алгоритма. Обучение SVM на отобранном генетическим алгоритмом множестве 400 признаков позволяет добиться до 10% прироста точности для всех рассмотренных корпусов авторов. Нейронные сети достигают точности классификации 96%, но при этом их время обучения в некоторых случаях в десятки раз превышает время, затраченное на обучение SVM и других классических методов машинного обучения. Для SVM совместно с генетическим алгоритмом средняя точность составила 66%, для глубоких нейронных сетей и fastText – 73 и 68% соответственно.
Ключевые слова: авторство, анализ текста, машинное обучение, нейронные сети, отбор признаков
Библиография статьи: Куртукова А. В. Применение методов машинного обучения и отбора признаков на основе генетического алгоритма в решении задачи определения автора русскоязычного текста для кибербезопасности / А. В. Куртукова [и др.] // Доклады ТУСУР. – 2022. – Т. 25, № 1. – С. 79–85. DOI: 10.21293/1818-0442-2021-25-1-79-85