Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса — Журнал «Доклады Томского государственного университета систем управления и радиоэлектроники»

Аннотация: В последнее время увеличилось количество утечек конфиденциальных данных по вине внутренних нарушителей. Так как современные DLP-системы не способны обнаруживать и пресекать каналы утечки информации в зашифрованном или сжатом виде, в работе предлагается алгоритм классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных. Использовался ансамблевый метод машинного обучения – алгоритм построения случайного леса. В качестве признакового пространства был выбран массив частот встречаемости двоичных подпоследовательностей длины 9 бит и статистические характеристики распределения байт в последовательностях. Представленный алгоритм показал точность классификации псевдослучайных последовательностей 0,99.

Ключевые слова: статистический анализ данных, машинное обучение, классификация бинарных последовательностей, системы противодействия утечкам конфиденциальных данных, защита от утечек данных

Библиография статьи:
Козачок А. В. Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса / А. В. Козачок, А. А. Спирин, О. М. Голембиовская // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2020. – Т. 23, № 3. – С. 55–60. DOI: 10.21293/1818-0442-2020-23-3-55-60