Набор данных для выявления искусственно сгенерированного исходного кода

Скачать текст статьи в формате PDF

Авторы: Букина С. Г., Харченко С. С.

Аннотация: Современные генеративные языковые модели активно используются для автоматической генерации исходного кода, что приводит к необходимости разработки методов его обнаружения. Однако создание наборов данных для определения сгенерированного кода остается затруднительной задачей. В данной работе проводится анализ суще-ствующих наборов данных с выявлением их ограничений. Разработан авторский набор данных, включающий ре-шения задач в виде кода на языке программирования Python, написанные людьми и сгенерированные современ-ными языковыми моделями. Проведена экспериментальная оценка с использованием методов машинного обуче-ния. Результаты демонстрируют перспективность предложенного набора, но указывают на необходимость его дальнейшего расширения или же проведения новых экспериментов для подбора наилучшей модели.

Ключевые слова: классификация кода, набор данных, языковые модели, машинное обучение, исходный код

Библиография статьи: Букина С. Г. Набор данных для выявления искусственно сгенерированного исходного кода / С. Г. Букина, С. С. Харченко // Доклады ТУСУР. – 2025. – Т. 28, № 2. – С. 106–110. DOI: 10.21293/1818-0442-2025-28-2-106-110

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru