Методика семантической кластеризации для выявления признаков экстремизма в текстовой информации

Скачать текст статьи в формате PDF

Авторы: Романов А. С.

Аннотация: Представлена разработка методики семантической кластеризации текстов для решения задач кибербезопасности. Она может применяться для выявления ложной и вредоносной текстовой информации, запрещенной законода-тельством РФ, пропаганды экстремизма и терроризма, призывов к розжигу межнациональной, религиозной и другой ненависти и розни. Предложенная методика основана на современной технологии BERTopic с эксперимен-тально подобранными параметрами и алгоритмами. Оценка методики осуществлялась на трех наборах данных. Согласно полученным результатам, в качестве алгоритма кластеризации был выбран HDBSCAN по метрике Ев-клида, в качестве алгоритма представления текстов – LaBSE, в качестве алгоритма понижения размерности – UMAP по метрике Жаккарда. Такая конфигурация BERTopic позволила добиться средних показателей 0,68 по коэффициенту силуэта, 0,36 по индексу Дэвиса–Болдина и 136,49 по индексу Калински–Харабаза.

Ключевые слова: информационная безопасность, кластеризация, семантика

Библиография статьи: Романов А. С. Методика семантической кластеризации для выявления признаков экстремизма в текстовой информации / А. С. Романов // Доклады ТУСУР. – 2024. – Т. 27, № 4. – С. 141–149. DOI: 10.21293/1818-0442-2024-27-4-141-149

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru