Применение методов машинного обучения и отбора признаков на основе генетического алгоритма в решении задачи определения автора русскоязычного текста для кибербезопасности — Журнал «Доклады Томского государственного университета систем управления и радиоэлектроники»

Аннотация: Исследуются подходы к определению автора текста на естественном языке, достоинства и недостатки этих подходов. Процесс идентификации автора русскоязычного текста осуществляется с использованием классических алгоритмов машинного обучения и архитектур нейронных сетей (в том числе fastText, CNN и LSTM и их гибриды, BERT). Оценка эффективности моделей проводится на корпусе сообщений пользователей социальных сетей. Отдельный эксперимент посвящен отбору информативных признаков с помощью генетического алгоритма. Обучение SVM на отобранном генетическим алгоритмом множестве 400 признаков позволяет добиться до 10% прироста точности для всех рассмотренных корпусов авторов. Нейронные сети достигают точности классификации 96%, но при этом их время обучения в некоторых случаях в десятки раз превышает время, затраченное на обучение SVM и других классических методов машинного обучения. Для SVM совместно с генетическим алгоритмом средняя точность составила 66%, для глубоких нейронных сетей и fastText – 73 и 68% соответственно.

Ключевые слова: авторство, анализ текста, машинное обучение, нейронные сети, отбор признаков

Библиография статьи:
Куртукова А. В. Применение методов машинного обучения и отбора признаков на основе генетического алгоритма в решении задачи определения автора русскоязычного текста для кибербезопасности / А. В. Куртукова [и др.] // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2022. – Т. 25, № 1. – С. 79–85. DOI: 10.21293/1818-0442-2021-25-1-79-85