Метод разделения данных для построения прогностических моделей машинного обучения

Скачать текст статьи в формате PDF

Авторы: Сарин К. С.

Аннотация: Представлен метод разделения данных на обучающую и валидационную выборки для построения прогностиче-ских моделей машинного обучения. Метод направлен на сохранение близости выборок к исходным данным. Под близостью подразумевается минимальное отклонение характеристик признаков данных. Сохранение близости позволяет уменьшить потерю информации при построении моделей по сравнению со случайным разделением и тем самым повысить обобщающую прогностическую способность. С помощью обучающих данных осуществля-ется построение множества альтернативных моделей с различными по сложности структурными характеристика-ми, а с помощью валидационных выбирается наиболее точная модель. Проведены эксперименты по построению нечетких классификаторов с разделением данных. Применение метода показало повышение точности классифика-ции и интерпретируемости моделей по сравнению со случайным разделением и без разделения исходных данных.

Ключевые слова: нечеткий классификатор, бинарные алгоритмы оптимизации, классификация, машинное обучение

Библиография статьи: Сарин К. С. Метод разделения данных для построения прогностических моделей машинного обучения / К. С. Сарин // Доклады ТУСУР. – 2024. – Т. 27, № 4. – С. 88–96. DOI: 10.21293/1818-0442-2024-27-4-88-96

Адрес редакции

  634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

  (3822) 701-582, внутр.: 1456

  journal@tusur.ru