Формирование набора признаков и сравнительный анализ алгоритмов классификации для выявления искусственно сгенерированного исходного кода
DOI: 10.21293/1818-0442-2025-28-4-121-126
DOI: 10.21293/1818-0442-2025-28-4-121-126
Аннотация: Представлен комплексный подход к формированию признакового пространства для решения задачи выявления искусственно сгенерированного исходного кода на языке программирования Python. Был разработан класс Algorithmic_Analyzer для извлечения 27 признаков, разделенных на четыре группы: базовые метрики кода, струк-турные характеристики, ключевые слова, библиотеки. Дополнительно извлекаются лексические паттерны с ис-пользованием словесных n-грамм. По результатам проведенных экспериментов с использованием классических алгоритмов машинного обучения установлено, что структурные характеристики демонстрируют более высокую значимость в сравнении с лексическими особенностями. Выявлены наиболее информативные признаки для ре-шения представленной в работе задачи. Наилучший результат показала модель XGBClassifier (F1_macro 0,90 в среднем).
Ключевые слова: классификация кода, анализ признаков, языковые модели, исходный код, машинное обучение
Авторы и правообладатели:
—
Библиография статьи:
Букина С. Г. Формирование набора признаков и сравнительный анализ алгоритмов классификации для выявления искусственно сгенерированного исходного кода / С. Г. Букина, С. С. Харченко // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2025. – Т. 28, № 4. – С. 121–126. DOI: 10.21293/1818-0442-2025-28-4-121-126