Деревья решений

Невероятная сила вложенных правил принятия решений.

Давай построим дерево решений

Представим, что мы фермеры с новым участком земли. Имея только диаметр и высоту ствола дерева, мы должны определить, является ли это дерево яблоней, вишней или дубом. Для этого мы будем использовать дерево решений.

Начать классификацию

Практически каждое дерево с диаметром ≥ 0.45 — это дуб! Таким образом, мы можем предположить, что любое дерево с таким диаметром, скорее всего, будет дубом.

Этот первый узел принятия решения станет нашим корневым узлом. Мы проведём вертикальную линию по этому диаметру и классифицируем всё, что выше, как дуб (наш первый листовой узел), а оставшиеся данные слева продолжим разделять.

Разделим ещё немного

Мы продолжаем, стремясь сегментировать наш участок земли наиболее эффективно. Мы видим, что создание нового узла принятия решения при высоте ≤ 4.88 выделяет область с вишнёвыми деревьями, поэтому мы разделяем данные там.

Наше дерево решений обновляется, добавляя новый листовой узел для вишни.

И ещё немного

После второго разделения у нас остаётся область, содержащая преимущественно яблони и несколько вишнёвых деревьев. Это не проблема: можно провести вертикальное разделение, чтобы лучше выделить яблони.

Наше дерево решений снова обновляется соответствующим образом.

И ещё раз

Оставшейся области требуется лишь дополнительное горизонтальное разделение — и работа завершена! Мы получили оптимальный набор вложенных решений.

Тем не менее, некоторые области всё ещё содержат несколько некорректно классифицированных точек. Стоит ли продолжать разделять, разбивая на более мелкие участки?

Хм...

Не углубляйся слишком сильно!

Если мы продолжим, получившиеся области станут слишком сложными, а наше дерево — неоправданно глубоким. Такое дерево решений будет переобучаться на шуме обучающих данных, а не на обобщаемых закономерностях.

Это звучит знакомо? Это хорошо известный компромисс между смещением и дисперсией! В этом случае слишком глубокое дерево приводит к переобучению, поэтому мы остановимся здесь.

Готово! Мы можем передать значения высоты и диаметра любой новой точки данных через созданное дерево решений, чтобы классифицировать их как яблоню, вишню или дуб!

Где разделять?

Мы только что увидели, как работает дерево решений на высоком уровне: сверху вниз оно создаёт последовательность правил, которые сегментируют данные на хорошо отделённые области для классификации. Но при наличии множества возможных вариантов, как алгоритм определяет, где именно разделять данные? Прежде чем ответить, нам нужно понять, что такое энтропия.

Энтропия измеряет количество информации о некоторой переменной или событии. Мы будем использовать её для идентификации областей, состоящих из схожих (чистых) или различных (нечистых) элементов.

Учитывая набор событий с вероятностями , общая энтропия вычисляется как:

\[ H = -\sum_{i} p_i \log_2(p_i) \]

Это количество обладает рядом ключевых свойств:

Свойства энтропии

Минимальное значение: Энтропия равна нулю, если одна из вероятностей \( p_i \) равна 1, а все остальные равны 0. Это соответствует ситуации полной определённости, когда выборка состоит из элементов одного класса, и результат предсказуем.
Максимальное значение: Энтропия достигает максимума, когда все вероятности \( p_i \) равны (например, \( p_i = \frac{1}{n} \) для \( n \) классов). Это соответствует максимальной неопределённости, или «нечистоте», когда классы равномерно распределены.
Чувствительность к распределению: Любое изменение вероятностей \( p_i \), приводящее к их выравниванию (т.е. к более равномерному распределению), увеличивает энтропию , отражая рост неопределённости.

Эти свойства делают энтропию эффективным инструментом для количественной оценки чистоты набора данных в задачах классификации.

Энтропия может быть использована для количественной оценки нечистоты набора помеченных точек данных: узел, содержащий несколько классов, является нечистым, тогда как узел, включающий только один класс, является чистым.

Выше вы можете вычислить энтропию набора помеченных точек данных, принадлежащих двум классам, что типично для задач бинарной классификации. Нажмите на кнопки Добавить и Удалить, чтобы изменить состав пузыря.

Заметили, что чистые выборки имеют нулевую энтропию, а нечистые — высокие значения? Это то, что делает энтропия: измеряет, насколько чист (или нечист) набор выборок. Мы будем использовать её в алгоритме для обучения деревьев решений, определяя информационный выигрыш.

Деревья решений

Давай построим дерево решений

Начать классификацию

Разделим ещё немного

И ещё немного

И ещё раз

Не углубляйся слишком сильно!

Где разделять?

Свойства энтропии

Информационный выигрыш

Шаги алгоритма ID3

Заметка о мерах информации

Ещё один взгляд на наше дерево решений

Проблема выбросов

Почему это проблема?

Необходимость выйти за пределы деревьев решений