Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса

Скачать текст статьи в формате PDF

Авторы: Козачок А. В., Спирин А. А., Голембиовская О. М.

Аннотация: В последнее время увеличилось количество утечек конфиденциальных данных по вине внутренних нарушителей. Так как современные DLP-системы не способны обнаруживать и пресекать каналы утечки информации в зашифрованном или сжатом виде, в работе предлагается алгоритм классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных. Использовался ансамблевый метод машинного обучения – алгоритм построения случайного леса. В качестве признакового пространства был выбран массив частот встречаемости двоичных подпоследовательностей длины 9 бит и статистические характеристики распределения байт в последовательностях. Представленный алгоритм показал точность классификации псевдослучайных последовательностей 0,99.

Ключевые слова: статистический анализ данных, машинное обучение, классификация бинарных последовательностей, системы противодействия утечкам конфиденциальных данных, защита от утечек данных

Библиография статьи: Козачок А. В. Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса / А. В. Козачок, А. А. Спирин, О. М. Голембиовская // Доклады ТУСУР. – 2020. – Т. 23, № 3. – С. 55–60. DOI: 10.21293/1818-0442-2020-23-3-55-60

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru