Методика семантической кластеризации для выявления признаков экстремизма в текстовой информации
Скачать текст статьи в формате PDF
Авторы: Романов А. С.
Аннотация: Представлена разработка методики семантической кластеризации текстов для решения задач кибербезопасности. Она может применяться для выявления ложной и вредоносной текстовой информации, запрещенной законода-тельством РФ, пропаганды экстремизма и терроризма, призывов к розжигу межнациональной, религиозной и другой ненависти и розни. Предложенная методика основана на современной технологии BERTopic с эксперимен-тально подобранными параметрами и алгоритмами. Оценка методики осуществлялась на трех наборах данных. Согласно полученным результатам, в качестве алгоритма кластеризации был выбран HDBSCAN по метрике Ев-клида, в качестве алгоритма представления текстов – LaBSE, в качестве алгоритма понижения размерности – UMAP по метрике Жаккарда. Такая конфигурация BERTopic позволила добиться средних показателей 0,68 по коэффициенту силуэта, 0,36 по индексу Дэвиса–Болдина и 136,49 по индексу Калински–Харабаза.
Ключевые слова: информационная безопасность, кластеризация, семантика
Библиография статьи: Романов А. С. Методика семантической кластеризации для выявления признаков экстремизма в текстовой информации / А. С. Романов // Доклады ТУСУР. – 2024. – Т. 27, № 4. – С. 141–149. DOI: 10.21293/1818-0442-2024-27-4-141-149