Дерево решений – основа классического MLДерево решений – это алгоритм, который
разбивает данные на группы, задавая последовательные "да/нет" вопросы.
Пример:
Допустим, мы хотим предсказать, купит ли человек автомобиль:
Первый вопрос – "Есть ли у человека водительские права?"
- Да → Идём дальше.
- Нет → Вероятность покупки = 0%.
Второй вопрос – "Есть ли у человека высокая зарплата?"
- Да → Вероятность покупки = 80%.
- Нет → Вероятность покупки = 30%.
В итоге дерево решений
разделяет данные на логические группы и делает предсказания на основе этого разбиения.
Плюсы дерева решений- Простота и интерпретируемость (можно визуально понять, почему модель сделала предсказание).
- Хорошо работает с категориальными данными (не нужно сложного кодирования).
- Работает быстро на небольших наборах данных.
Минусы дерева решений- Легко переобучается (если дерево слишком глубокое).
- Чувствительно к изменениям в данных.
Случайный лес – улучшенная версия деревьев решенийСлучайный лес (Random Forest) – это
множество деревьев решений, каждое из которых обучается на случайной части данных.
Пример:
Допустим, мы хотим предсказать стоимость квартиры. Мы создаём
100 деревьев, каждое из которых анализирует разные признаки (площадь, район, этаж и т.д.). Затем берём
среднее значение предсказаний всех деревьев – и это финальный результат.
Преимущества случайного леса:- Снижает переобучение (модель становится более устойчивой).
- Хорошо работает с разными типами данных.