Особенности применения деревьев решений в задачах классификации

УДК 004.855.5

Кафтанников Игорь Леопольдович, канд. техн. наук, доцент кафедры электронных вычис- лительных машин, Южно-Уральский государственный университет, г. Челябинск, kil@is74.ru

Парасич Андрей Викторович, аспирант кафедры электронных вычислительных машин, Южно-Уральский государственный университет, г. Челябинск, parasich_av@yandex.ru

Аннотация

Рассматривается применение деревьев решений в задачах классификации. В последние годы деревья решений широко применяются в задачах компьютерного зрения, таких как распознавание объектов, классификация текстов, распознавание жестов, обнаружение спама, обучение ранжированию в информационном поиске, семантическая сегментация и кластеризация данных. Этому способствуют такие отличительные особенности деревьев решений как интерпретируемость, управляемость, возможность автоматического отбора информативных признаков. Однако имеется и ряд принципиальных недостатков, из-за которых задача обучения деревьев решений существенно усложняется. В статье приводится анализ преимуществ и недостатков деревьев решений, рассматриваются вопросы обучения и тестирования деревьев решений. Особое внимание уделяется проблемам сбалансированности обучающей выборки. Рассматриваются также леса решений и методы их обучения. Приводится краткий обзор методов снижения взаимозависимости ошибок деревьев решений при обучении лесов решений. Предлагаются методы преодоления недостатков деревьев решений, приводятся результаты работы данных методов.

Полный текст

Ключевые слова

деревья решений, леса решений, машинное обучение, классификация

Литература

Breiman L. Random Forests. Machine Learning, 2001, vol. 45(1), pp. 5–32. DOI: 10.1023/A:1010933404324
Breiman L. Bagging Predictors. Machine Learning, 1996, vol. 24, no. 2, pp. 123–140. DOI: 10.1007/BF00058655
Freund Y, Schapire R.E. Experiments with a New Boosting Algorithm. International Conference on Machine Learning, 1996, pp. 148–156.
Маценов А.А. Комитетный бустинг: минимизация числа базовых алгоритмов при простом голосовании. Всероссийская конференция ММРО-13. 2007. С. 180–183.
Mason L., Bartlett P., Baxter J. Direct Optimization of Margins Improves Generalization in Combined Classifiers. Proc. of the 1998 conf. on Advances in Neural Information Processing Systems II, MIT Press, 1999, pp. 288–294.

Источник

Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». – 2015. – Т. 15, № 3. - С. 26-32. (Информатика и вычислительная техника)