Занятие 3. Классические ML-алгоритмы для табличных данных

Занятие 3
Классические ML-алгоритмы для табличных данных

Сегодня мы разберём классические алгоритмы машинного обучения, которые широко применяются для работы с табличными данными. Несмотря на популярность нейросетей, именно эти методы чаще всего дают лучшие результаты в задачах классификации и регрессии.

Мы рассмотрим:

Деревья решений и случайный лес – простые, но мощные модели.
Метод опорных векторов (SVM) – когда его стоит использовать?
Градиентный бустинг (XGBoost, CatBoost, LightGBM) – мощнейший инструмент для табличных данных.
В чём плюсы и минусы классических ML-алгоритмов?

Деревья решений и случайный лес

Дерево решений – основа классического ML
Дерево решений – это алгоритм, который разбивает данные на группы, задавая последовательные "да/нет" вопросы.
Пример:
Допустим, мы хотим предсказать, купит ли человек автомобиль:

Первый вопрос – "Есть ли у человека водительские права?"

Да → Идём дальше.
Нет → Вероятность покупки = 0%.

Второй вопрос – "Есть ли у человека высокая зарплата?"

Да → Вероятность покупки = 80%.
Нет → Вероятность покупки = 30%.

В итоге дерево решений разделяет данные на логические группы и делает предсказания на основе этого разбиения.

Плюсы дерева решений

Простота и интерпретируемость (можно визуально понять, почему модель сделала предсказание).
Хорошо работает с категориальными данными (не нужно сложного кодирования).
Работает быстро на небольших наборах данных.

Минусы дерева решений

Легко переобучается (если дерево слишком глубокое).
Чувствительно к изменениям в данных.

Случайный лес – улучшенная версия деревьев решений

Случайный лес (Random Forest) – это множество деревьев решений, каждое из которых обучается на случайной части данных.

Пример:
Допустим, мы хотим предсказать стоимость квартиры. Мы создаём 100 деревьев, каждое из которых анализирует разные признаки (площадь, район, этаж и т.д.). Затем берём среднее значение предсказаний всех деревьев – и это финальный результат.

Преимущества случайного леса:

Снижает переобучение (модель становится более устойчивой).
Хорошо работает с разными типами данных.

оставьте заявку на курс по AI

Подберем программу под ваши цели

Продолжительность курса 6 месяцев

1

Не упустите возможность освоить востребованную профессию будущего

Стоимость от 4 719 руб. в месяц

Гарантия трудоустройства

Метод опорных векторов (SVM)

Как работает SVM?

Метод опорных векторов (Support Vector Machine, SVM) – это алгоритм, который разделяет данные на классы с максимальным зазором (margin).

Пример:
Допустим, у нас есть две группы точек (оранжевые и синие), и мы хотим найти линию, которая разделяет их максимально чётко. SVM ищет оптимальную границу, которая проходит между этими группами с максимальным запасом.

Когда использовать SVM?

Если у данных чёткие границы (например, классификация спама и обычных писем).
Если размерность данных большая (SVM хорошо работает даже с десятками тысяч признаков).

Минусы SVM:

Плохо работает на больших данных – вычисления становятся слишком долгими.
Чувствителен к шуму в данных.

Градиентный бустинг: XGBoost, CatBoost, LightGBM

Градиентный бустинг – это один из самых мощных методов для работы с табличными данными. Почти все победители соревнований по машинному обучению (например, на платформе Kaggle) используют именно XGBoost, CatBoost или LightGBM.

Как работает градиентный бустинг?
Он строит несколько деревьев решений, каждое из которых исправляет ошибки предыдущих деревьев. В итоге модель становится очень точной.

1. XGBoost (eXtreme Gradient Boosting)

Самая популярная библиотека для бустинга.
Быстрая и эффективная, умеет работать с недостающими данными.
Используется в банковской сфере, финансах, медицине.

Пример применения: кредитный скоринг (определение, можно ли выдать клиенту кредит).

2. CatBoost (от компании Яндекс)

Хорошо работает с категориальными данными (без OHE и Label Encoding).
Устойчив к переобучению.
Работает лучше, чем XGBoost на текстах и других сложных данных.

Пример применения: рекомендательные системы в интернет-магазинах.

3. LightGBM (Light Gradient Boosting Machine)

Самый быстрый из всех алгоритмов градиентного бустинга.
Хорошо работает на больших данных (миллионы строк).
Используется в рекламе, финансах, аналитике.

Пример применения: оптимизация рекламных кампаний (Google Ads, Facebook Ads).

Преимущества и недостатки классических ML-алгоритмов

Преимущества

Работают быстро – особенно деревья решений и случайный лес.
Хорошо подходят для табличных данных – градиентный бустинг часто лучше нейросетей.
Простота интерпретации – в отличие от нейросетей, можно понять, почему модель приняла решение.

Недостатки

Не работают с изображениями и текстами без предварительной обработки.
Некоторые алгоритмы чувствительны к выбросам (например, SVM).
Градиентный бустинг сложен в настройке – требует подбора гиперпараметров.

Сегодня мы разобрали основные классические алгоритмы машинного обучения для табличных данных:

Деревья решений и случайный лес – простые и мощные модели.
Метод опорных векторов (SVM) – отлично работает, если данные хорошо разделимы.
Градиентный бустинг (XGBoost, CatBoost, LightGBM) – лучшая технология для табличных данных.
Рассмотрели плюсы и минусы классических алгоритмов.

В следующем занятии мы поговорим о нейросетях для работы с табличными данными – как они работают и когда их стоит использовать!