Набор данных для выявления искусственно сгенерированного исходного кода
Скачать текст статьи в формате PDF
Авторы: Букина С. Г., Харченко С. С.
Аннотация: Современные генеративные языковые модели активно используются для автоматической генерации исходного кода, что приводит к необходимости разработки методов его обнаружения. Однако создание наборов данных для определения сгенерированного кода остается затруднительной задачей. В данной работе проводится анализ суще-ствующих наборов данных с выявлением их ограничений. Разработан авторский набор данных, включающий ре-шения задач в виде кода на языке программирования Python, написанные людьми и сгенерированные современ-ными языковыми моделями. Проведена экспериментальная оценка с использованием методов машинного обуче-ния. Результаты демонстрируют перспективность предложенного набора, но указывают на необходимость его дальнейшего расширения или же проведения новых экспериментов для подбора наилучшей модели.
Ключевые слова: классификация кода, набор данных, языковые модели, машинное обучение, исходный код
Библиография статьи: Букина С. Г. Набор данных для выявления искусственно сгенерированного исходного кода / С. Г. Букина, С. С. Харченко // Доклады ТУСУР. – 2025. – Т. 28, № 2. – С. 106–110. DOI: 10.21293/1818-0442-2025-28-2-106-110