Формирование набора признаков и сравнительный анализ алгоритмов классификации для выявления искусственно сгенерированного исходного кода

DOI: 10.21293/1818-0442-2025-28-4-121-126

Скачать текст статьи в формате PDF

Аннотация: Представлен комплексный подход к формированию признакового пространства для решения задачи выявления искусственно сгенерированного исходного кода на языке программирования Python. Был разработан класс Algorithmic_Analyzer для извлечения 27 признаков, разделенных на четыре группы: базовые метрики кода, струк-турные характеристики, ключевые слова, библиотеки. Дополнительно извлекаются лексические паттерны с ис-пользованием словесных n-грамм. По результатам проведенных экспериментов с использованием классических алгоритмов машинного обучения установлено, что структурные характеристики демонстрируют более высокую значимость в сравнении с лексическими особенностями. Выявлены наиболее информативные признаки для ре-шения представленной в работе задачи. Наилучший результат показала модель XGBClassifier (F1_macro 0,90 в среднем).

Ключевые слова: классификация кода, анализ признаков, языковые модели, исходный код, машинное обучение

Авторы и правообладатели:

Библиография статьи:
Букина С. Г. Формирование набора признаков и сравнительный анализ алгоритмов классификации для выявления искусственно сгенерированного исходного кода / С. Г. Букина, С. С. Харченко // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2025. – Т. 28, № 4. – С. 121–126. DOI: 10.21293/1818-0442-2025-28-4-121-126

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru