Метод разделения данных для построения прогностических моделей машинного обучения
Скачать текст статьи в формате PDF
Авторы: Сарин К. С.
Аннотация: Представлен метод разделения данных на обучающую и валидационную выборки для построения прогностиче-ских моделей машинного обучения. Метод направлен на сохранение близости выборок к исходным данным. Под близостью подразумевается минимальное отклонение характеристик признаков данных. Сохранение близости позволяет уменьшить потерю информации при построении моделей по сравнению со случайным разделением и тем самым повысить обобщающую прогностическую способность. С помощью обучающих данных осуществля-ется построение множества альтернативных моделей с различными по сложности структурными характеристика-ми, а с помощью валидационных выбирается наиболее точная модель. Проведены эксперименты по построению нечетких классификаторов с разделением данных. Применение метода показало повышение точности классифика-ции и интерпретируемости моделей по сравнению со случайным разделением и без разделения исходных данных.
Ключевые слова: нечеткий классификатор, бинарные алгоритмы оптимизации, классификация, машинное обучение
Библиография статьи: Сарин К. С. Метод разделения данных для построения прогностических моделей машинного обучения / К. С. Сарин // Доклады ТУСУР. – 2024. – Т. 27, № 4. – С. 88–96. DOI: 10.21293/1818-0442-2024-27-4-88-96