Разработка методики идентификации авторства бинарных и дизассемблированных кодов программы на основе ансамбля современных методов обработки естественного языка
Скачать текст статьи в формате PDF
Авторы: Куртукова А. В., Романов А. С., Шелупанов А. А.
Аннотация: Данная статья является частью цикла исследований, направленных на решение проблем идентификации авторства программного кода. Анализ бинарного или дизассемблированного кода является важнейшей задачей информаци-онной безопасности, разработки программного обеспечения и компьютерной криминалистики ввиду необходимо-сти защиты результатов интеллектуальной деятельности и авторского права, а также определения авторов вредо-носных программ. Любая программа представляет собой машинный код, который может быть дизассемблирован (преобразован в текст на языке ассемблера) при помощи специализированных инструментов и проанализирован на предмет авторства по аналогии с текстом на естественном языке. Для решения обозначенной проблемы в статье предлагается методика на основе ансамбля fastText, метода опорных векторов (SVM) и авторской гибридной нейронной сети. Предложенная методика оценивалась на исходных кодах на языках C и C++, собранных с плат-форм GitHub и Google Code Jam, скомпилированных в исполняемые файлы и дизассемблированных инструмен-тами реверс-инжиниринга. Средняя точность идентификации автора дизассемблированного кода предложенной методикой составила более 0,9. Методика также была апробирована на исходных кодах, в результате чего средняя точность составила 0,96 для простых случаев и более 0,85 для сложных (обфускация, стандарты кодирования и др.).
Библиография статьи: Куртукова А. В. Разработка методики идентификации авторства бинарных и дизассемблированных кодов программы на основе ансамбля современных методов обработки естественного языка / А. В. Куртукова, А. С. Романов, А. А. Шелупанов // Доклады ТУСУР. – 2023. – Т. 26, № 4. – С. 53–60. DOI: 10.21293/1818-0442-2023-26-4-53-60