Журнал «Доклады Томского государственного университета систем управления и радиоэлектроники» / Архив / Выпуск журнала № 2, т. 28 за 2025 год / Набор данных для выявления искусственно сгенерированного исходного кода

Набор данных для выявления искусственно сгенерированного исходного кода

DOI: 10.21293/1818-0442-2025-28-2-106-110

Скачать текст статьи в формате PDF

Скачать JATS xml

Аннотация: Современные генеративные языковые модели активно используются для автоматической генерации исходного кода, что приводит к необходимости разработки методов его обнаружения. Однако создание наборов данных для определения сгенерированного кода остается затруднительной задачей. В данной работе проводится анализ существующих наборов данных с выявлением их ограничений. Разработан авторский набор данных, включающий решения задач в виде кода на языке программирования Python, написанные людьми и сгенерированные современными языковыми моделями. Проведена экспериментальная оценка с использованием методов машинного обучения. Результаты демонстрируют перспективность предложенного набора, но указывают на необходимость его дальнейшего расширения или же проведения новых экспериментов для подбора наилучшей модели.

Ключевые слова: исходный код, машинное обучение, языковые модели, набор данных, классификация кода

Библиография статьи:
Букина С. Г. Набор данных для выявления искусственно сгенерированного исходного кода / С. Г. Букина, С. С. Харченко // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2025. – Т. 28, № 2. – С. 106–110. DOI: 10.21293/1818-0442-2025-28-2-106-110

Авторы и правообладатели:

Букина С. Г. , Томский государственный университет систем управления и радиоэлектроники (Томск, Россия)
Харченко С. С. , Томский государственный университет систем управления и радиоэлектроники (Томск, Россия)

1. Hype or not? AI’s benefits for developers explored in the 2023 Developer Survey [Электронный ресурс]. – URL: https://stackoverflow.blog/2023/06/14/hype-or-not-developershave-something-to-say-about-ai/ (дата обращения: 16.09.2024).
2. 2024 Developer Survey [Электронный ресурс]. – URL: https://survey.stackoverflow.co/2024/ai/ (дата обращения: 16.09.2024).
3. The «Code» of Ethics: A Holistic Audit of AI Code Generators / W. Ma, Y. Song, M. Xue, S. Wen, Y. Xiang // IEEE Transactions on Dependable and Secure Computing. – 2024. – Vol. 21, No. 5. – P. 4997–5013.
4. ChatGPT Code Detection: Techniques for Uncovering the Source of Code / M. Oedingen, R. Denz, R. Engelhardt, M. Hammer // AI Journal. – 2024. – Vol. 5, No. 3. – P. 1066–1094.
5. Detecting ChatGPT-Generated Code Submissions in a CS1 Course Using Machine Learning Models / M. Hoq, Y. Shi, J. Leinonen, D. Babalola // SIGCSE 2024: Proceedings of the 55th ACM Technical Symposium on Computer Science Education. – Portland, Oregon, United States, 2024. – Vol. 1. – P. 526–532.
6. Whodunit: Classifying Code as Human Authored or GPT-4 Generated – A case study on CodeChef problems / O.J. Idialu, N.S. Mathews, R. Maipradit, J.M. Atlee // Proceedings of the 21st International Conference on Mining Software Repositories. – Lisbon, Portugal, 2024. – P. 394–406.
7. Discriminating Human-authored from ChatGPT-Generated Code Via Discernable Feature Analysis / K. Li, S. Hong, C. Fu, Y. Zhang, M. Liu // IEEE 34th International Symposium on Software Reliability Engineering Workshops. – Florence, Italy, 2023. – P. 120–127.
8. GPTSniffer: A CodeBERT-based classifier to detect source code written by ChatGPT / P. Nguyen, J. Rocco, C. Sipio, R. Rubei // Journal of Systems and Software. – 2024. – Vol. 214. – P. 112059.
9. Bukhari S.A. Issues in Detection of AI-Generated Source Code: The Requirements for the degree of Masters of Science. – Calgary, 2024. – 102 p.
10. Sjoerd S. The Detection of AI Generated Coding Content: The Requirements for the degree of Masters of Science. – Utrecht, 2024. – 75 p.
11. Xu Z. Detecting AI-Generated Code Assignments Using Perplexity of Large Language Models / Z. Xu, V. Sheng // Proceedings of the AAAI Conference on Artificial Intelligence. – Vancouver, Canada, 2024. – P. 23155–23162.
12. Набор данных APPS на платформе Hugging Face [Электронный ресурс]. – URL: https://huggingface.co/datasets/codeparrot/apps (дата обращения: 24.10.2024).
13. Chen M. Evaluating Large Language Models Trained on Code / M. Chen, J. Tworek, H. Jun [Электронный ресурс]. – URL: https://arxiv.org/abs/2107.03374 (дата обращения: 16.02.2025).
14. Allamanis M. A Survey of Machine Learning for Big Code and Naturalness / M. Allamanis, E. Barr, P. Devanbu // ACM Computing Surveys (CSUR). – 2018. – Vol. 51, No. 81. – P. 1–37.
15. Expectation vs. Experience: Evaluating the Usability of Code Generation Tools Powered by Large Language Models / P. Vaithilingam, T. Wu, E. Glassman // Proceedings of the CHI Conference on Human Factors in Computing Systems Extended Abstracts – 2022. – No. 332. – P. 1–7.

Рукописи статей направлять на адрес редакции: journal@tusur.ru

Последний выпуск

Доклады ТУСУР – выпуск № 1, т. 29 2026г.

Доклады ТУСУР
№ 1, т. 29, 2026

Адрес редакции

634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

(3822) 701-582, внутр.: 1456

journal@tusur.ru

Подписка на обновления

Оформить подписку на получение обновлений журнала