Журнал «Доклады Томского государственного университета систем управления и радиоэлектроники» / Архив / Выпуск журнала № 4, т. 27 за 2024 год / Метод разделения данных для построения прогностических моделей машинного обучения

Метод разделения данных для построения прогностических моделей машинного обучения

DOI: 10.21293/1818-0442-2024-27-4-88-96

Скачать текст статьи в формате PDF

Скачать JATS xml

Аннотация: Представлен метод разделения данных на обучающую и валидационную выборки для построения прогностических моделей машинного обучения. Метод направлен на сохранение близости выборок к исходным данным. Под близостью подразумевается минимальное отклонение характеристик признаков данных. Сохранение близости позволяет уменьшить потерю информации при построении моделей по сравнению со случайным разделением и тем самым повысить обобщающую прогностическую способность. С помощью обучающих данных осуществляется построение множества альтернативных моделей с различными по сложности структурными характеристика-ми, а с помощью валидационных выбирается наиболее точная модель. Проведены эксперименты по построению нечетких классификаторов с разделением данных. Применение метода показало повышение точности классификации и интерпретируемости моделей по сравнению со случайным разделением и без разделения исходных данных.

Ключевые слова: машинное обучение, классификация, бинарные алгоритмы оптимизации, нечеткий классификатор

Сведения о финансировании: Исследование выполнено за счет гранта Российского научного фонда № 24-21-00168, https://rscf.ru/project/24-21-00168/.

Библиография статьи:
Сарин К. С. Метод разделения данных для построения прогностических моделей машинного обучения / К. С. Сарин // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2024. – Т. 27, № 4. – С. 88–96. DOI: 10.21293/1818-0442-2024-27-4-88-96

Авторы и правообладатели:

Сарин К. С. , Томский государственный университет систем управления и радиоэлектроники (Томск, Россия)

1. Hu X. Model complexity of deep learning: a survey / X. Hu, L. Chu, J. Pei, W. Liu, J. Bian // Knowledge and Information Systems. – 2021. – Vol. 63. – P. 2585–2619.
2. Constructing Complexity Metrics for Measuring Generalization Ability of Deep Learning Models / W. Wen, W. Ke, J. Feng, S. Liu, Z. Xu, X. Sheng // 2024 10th International Conference on Big Data and Information Analytics (BigDIA), Chiang Mai, Thailand. – 2024. – P. 9–16.
3. Bulso N. On the complexity of logistic regression models / N. Bulso, M. Marsili, Y. Roudi // Neural Computation. – 2019. – Vol. 31, No. 8. – P. 1592–1623.
4. Measuring Model Complexity of Neural Networks with Curve Activation Functions / X. B. Hu, W. Liu, J. Bian, J. Pei // Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – 2020. – P. 1521–1531.
5. Buhrman H. Complexity measures and decision tree complexity: a survey / H. Buhrman, R. De Wolf // Theoretical computer science. – 2002. – Vol. 288, No. 1. – P. 21–43.
6. Gacto M.J. Interpretability of linguistic fuzzy rule-based system: An overview of interpretability measures / M.J. Gacto, R. Alcala, F. Herrera // Information Science. – 2011. – Vol. 181. – P. 4340–4360.
7. Hanin B. Complexity of linear regions in deep networks / B. Hanin, D. Rolnick // International conference on machine learning, PMLR. – 2019. – P. 2596–2604.
8. Ortigossa E. S. EXplainable Artificial Intelligence (XAI) – From Theory to Methods and Applications / E.S. Ortigossa, T. Goncalves, L. G. Nonato // IEEE Access. – 2024. – Vol. 12. – P. 80799–80846.
9. Chehreghani M. H. A Review on the Impact of Data Representation on Model Explainability // ACM Computing Surveys. – 2024. – Vol. 56. – P. 1–21.
10. Ying X. An Overview of Overfitting and its Solutions // Journal of Physics: Conference Series. – 2019. – Vol. 1168, No. 2. – P. 1–6.
11. Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models / C. Ma, Y. Liu, J. Deng, L. Xie, W. Dong, C. Xu // IEEE Transactions on Circuits and Systems for Video Technology. – 2022. – Vol. 33. – P. 4616–4629.
12. Monica A. Survey on Hyperparameter Optimization of Machine Learning Models / А. Monica, P. Agrawal // 2024 2nd International Conference on Disruptive Technologies (ICDT), Greater Noida, India. – 2024. – P. 11–15.
13. Yang L. On Hyperparameter Optimization of Machine Learning Algorithms: Theory and Practice / L. Yang, A. Shami // Neurocomputing. – 2020. – Vol. 415. – P. 295–316.
14. Simple Deterministic Selection-Based Genetic Algorithm for Hyperparameter Tuning of Machine Learning Models / I.D. Raji, H. Bello-Salau, I.J. Umoh, A.J. Onumanyi, M.A. Adegboye, A.T. Salawudeen // Applied Sciences. – 2022. – Vol. 12, No. 3. – P. 1186.
15. Bergstra J. Algorithms for hyper-parameter optimization / J. Bergstra, R. Bardenet, Y. Bengio, B. Kegl // Proceedings Advances in Neural Information Processing Systems. – 2011. – P. 2546–2554.
16. James B. Random search for hyper-parameter optimization / B. James, B. Yoshua // Journal of Machine Learning Research. – 2012. – Vol. 13, No. 1. – P. 281–305.
17. Snoek J. Practical Bayesian optimization of machine learning algorithms / J. Snoek, H. Larochelle, R. Adams // Advances in Neural Information Processing Systems. – 2012. – Vol. 4. – P. 2951–2959.
18. Multiobjective genetic fuzzy rule selection of single granularity-based fuzzy classification rules and its interaction with the lateral tuning of membership functions / R. Alcala, Y. Nojima, F. Herrera, H. Ishibuchi // Soft Computing. – 2011. – Vol. 15. – P. 2303–2318.
19. Fazzolari M. Multi-objective evolutionary method for learning granularities based on fuzzy discretization to improve the accuracy-complexity trade-off of fuzzy rule-based classification systems: D-MOFARC algorithm / M. Fazzolari, R. Alcala, F. Herrera // Applied Soft Computing. – 2014. – Vol. 24. – P. 470–481.
20. Alcala-Fdez J. A Fuzzy Association Rule-Based Classification Model for High-Dimensional Problems With Genetic Rule Selection and Lateral Tuning / J. Alcala-Fdez, R. Alcala, F. Herrera // IEEE Transactions on Fuzzy Systems. – 2011. – Vol. 19, No. 5. – P. 857–872.
21. Alcala R. A proposal for the genetic lateral tuning of linguistic fuzzy systems and its interaction with rule selection / R. Alcala, J. Alcala-Fdez, F. Herrera // IEEE Transactions of Fuzzy System. – 2007. – Vol. 15, No. 4. – P. 616–635.
22. Sarin K.S. Discrete Optimization Algorithm Based on Probability Distribution with Transformation of Target Values // Programming and Computer Software. – 2024. – Vol. 50, No. 6. – P. 445–456.
23. Сарин К.С. Гибридный алгоритм смешанной многокритериальной оптимизации «кукушкин поиск» с генетическим оператором скрещивания // Искусственный интеллект и принятие решений. – 2024. – № 2. – С. 87–105.
24. A three-stage fuzzy classifier method for Parkinson’s disease diagnosis using dynamic handwriting analysis / K. Sarin, M. Bardamova, M. Svetlakov, N. Koryshev, R. Ostapenko, A. Hodashinskaya, I. Hodashinsky // Decision Analytics Journal. – 2023. – Vol. 5. – P. 100274.
25. Demsar J. Statistical Comparisons of Classifiers over Multiple Data Sets // Journal of Machine Learning Research. – 2006. – Vol. 7. – P. 1–30.
26. Garsia S. An Extension on «Statistical Comparisons of Classifiers over Multiple Data Sets» for all Pairwise Comparisons / S. Garsia, F. Herrera // Journal of Machine Learning Research. – 2008. – Vol. 9. – P. 2677–2694.
27. Garsia S. Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining: Experimental analysis of power / S. Garsia, A. Fernandez, J. Luengo, F. Herrera // Information Sciences. – 2010. – Vol. 180. – P. 2044–2064.

Рукописи статей направлять на адрес редакции: journal@tusur.ru

Последний выпуск

Доклады ТУСУР – выпуск № 1, т. 29 2026г.

Доклады ТУСУР
№ 1, т. 29, 2026

Адрес редакции

634050, г. Томск, пр. Ленина, 40, МК, каб. 310/2

(3822) 701-582, внутр.: 1456

journal@tusur.ru

Подписка на обновления

Оформить подписку на получение обновлений журнала