Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса
Скачать текст статьи в формате PDF
Авторы: Козачок А. В., Спирин А. А., Голембиовская О. М.
Аннотация: В последнее время увеличилось количество утечек конфиденциальных данных по вине внутренних нарушителей. Так как современные DLP-системы не способны обнаруживать и пресекать каналы утечки информации в зашифрованном или сжатом виде, в работе предлагается алгоритм классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных. Использовался ансамблевый метод машинного обучения – алгоритм построения случайного леса. В качестве признакового пространства был выбран массив частот встречаемости двоичных подпоследовательностей длины 9 бит и статистические характеристики распределения байт в последовательностях. Представленный алгоритм показал точность классификации псевдослучайных последовательностей 0,99.
Ключевые слова: статистический анализ данных, машинное обучение, классификация бинарных последовательностей, системы противодействия утечкам конфиденциальных данных, защита от утечек данных
Библиография статьи: Козачок А. В. Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса / А. В. Козачок, А. А. Спирин, О. М. Голембиовская // Доклады ТУСУР. – 2020. – Т. 23, № 3. – С. 55–60. DOI: 10.21293/1818-0442-2020-23-3-55-60