Занятие 2. Подготовка табличных данных перед обучением моделей

Занятие 2
Подготовка табличных данных перед обучением

Перед тем как обучить модель машинного обучения, нужно правильно подготовить данные. Качество предобработки напрямую влияет на точность предсказаний и устойчивость модели.
В этом занятии мы разберём основные этапы подготовки табличных данных, такие как кодирование категориальных признаков, нормализация числовых данных и обработка текстовой информации.

Почему предобработка данных важна для моделей?

Большинство алгоритмов машинного обучения работают только с числовыми данными. Однако в реальных таблицах могут встречаться текстовые, категориальные и числовые признаки с разными диапазонами значений. Без правильной предобработки модель может работать некорректно.
Вот основные причины, почему подготовка данных важна:

Машинное обучение "не понимает" текст

Если у нас есть колонка с названиями городов, например, Москва, Париж, Лондон, то модель не сможет использовать их без предварительного кодирования.

Разные масштабы числовых данных

Если в таблице есть возраст (от 0 до 100 лет) и зарплата (от 20 000 до 1 000 000 рублей), модель может "считать" зарплату более важным параметром просто из-за её больших значений.

Тексты требуют особой обработки

Например, отзывы клиентов, комментарии или статьи нельзя просто вставить в таблицу. Их нужно перевести в числовой формат (Bag-of-Words, TF-IDF).

Чтобы избежать этих проблем, используются специальные методы предобработки данных, о которых мы поговорим ниже.

Кодирование категориальных признаков: Label Encoding, One-Hot Encoding (OHE)

ЧЧто такое категориальные признаки?
Категориальные признаки – это текстовые или номинальные данные в таблице. Примеры:

Цвет автомобиля: красный, синий, чёрный
Город проживания: Москва, Париж, Лондон
Тип товара: телефон, ноутбук, планшет

Такую информацию нужно перевести в числовой формат, используя Label Encoding или One-Hot Encoding (OHE).
Label Encoding (Числовая кодировка)
Label Encoding – это метод, при котором каждому уникальному значению присваивается число. Например:

Цвет	Код (Label Encoding)
Красный	0
Синий	1
Чёрный	2

Этот метод прост и эффективен, но у него есть недостаток – модель может подумать, что чёрный (2) важнее, чем красный (0), хотя на самом деле у цветов нет порядка.
One-Hot Encoding (OHE, "Горячее кодирование")
One-Hot Encoding создаёт отдельные колонки для каждого уникального значения:

Красный	Синий	Чёрный
1	0	0
0	1	0
0	0	1

Этот метод исключает "порядок" чисел, но увеличивает размер таблицы, если категорий слишком много.
Когда использовать?

Label Encoding – если категорий мало (2–5 штук).
One-Hot Encoding – если категорий больше, но их количество ограничено (например, до 20).

оставьте заявку на курс по AI

Подберем программу под ваши цели

Продолжительность курса 6 месяцев

1

Не упустите возможность освоить востребованную профессию будущего

Стоимость от 4 719 руб. в месяц

Гарантия трудоустройства

Нормализация и стандартизация числовых данных

Числовые данные могут находиться в разных диапазонах. Например, возраст человека может варьироваться от 0 до 100 лет, а доход — от 20 000 до 1 000 000 рублей. Если оставить данные в таком виде, модель может считать признаки с большими значениями (например, доход) более значимыми, чем признаки с небольшими значениями (например, возраст). Это может привести к искажённым предсказаниям.

Поэтому перед обучением модели числовые данные приводят к единому масштабу. Для этого существуют два основных подхода:

1. Нормализация (MinMaxScaler)
Этот метод преобразует все значения в диапазон от 0 до 1. При этом самое маленькое значение становится 0, самое большое – 1, а все остальные значения распределяются между ними.

Пример:

До нормализации (руб.)	После нормализации
20 000	0.0
500 000	0.5
1 000 000	1.0

Нормализация используется, когда важно сохранить пропорции между значениями. Например, в финансовых расчётах, где доходы людей могут сильно отличаться, но относительные различия должны сохраняться.

2. Стандартизация (StandardScaler)
Этот метод приводит данные к среднему значению 0 и устраняет различия в масштабах. После стандартизации большинство значений будет находиться в диапазоне от -1 до 1, но возможны и отклонения.
Стандартизация применяется, если данные распределены примерно равномерно и важно, чтобы каждый признак имел одинаковый вес. Например, если анализируются медицинские показатели, такие как температура тела, уровень сахара в крови и давление, их стоит привести к единому масштабу, чтобы модель не выделяла какой-то из признаков только из-за его изначального масштаба.

Когда что использовать?
✔ MinMaxScaler – если данные имеют разный масштаб, но важно сохранить пропорции между значениями.
✔ StandardScaler – если данные имеют приблизительно нормальное распределение и важно, чтобы каждый признак имел сопоставимый вес.

В большинстве случаев стандартизация подходит лучше, но если данные сильно отличаются по диапазону, может понадобиться нормализация.

Работа с текстовыми данными: Bag-of-Words и TF-IDF

Если в табличных данных присутствуют текстовые столбцы (например, отзывы клиентов, описания товаров), их необходимо преобразовать в числовой формат, чтобы модель могла с ними работать. Для этого используются специальные методы обработки текста.

1. Bag-of-Words (Мешок слов)
Этот метод создаёт список (словарь) всех слов, которые встречаются в тексте, а затем подсчитывает, сколько раз каждое слово используется.

Пример:

Текст	"погода"	"сегодня"	"отличная"
Погода сегодня отличная	1	1	1
Сегодня дождь	0	1	0

Таким образом, каждый текст превращается в строку с числами, где каждое число показывает, сколько раз конкретное слово встречается в этом тексте.
Минус метода – все слова считаются одинаково важными, даже если некоторые из них встречаются почти в каждом тексте (например, «сегодня», «очень», «но»).

2. TF-IDF (Улучшенный вариант Bag-of-Words)
TF-IDF не просто считает слова, а оценивает их значимость. Этот метод учитывает два фактора:

Как часто слово встречается в тексте (чем чаще – тем важнее).
Как редко слово встречается в других текстах (чем реже – тем оно ценнее).

Например, в новостях про погоду слово «дождь» может быть важнее, чем «сегодня», потому что «сегодня» встречается в каждом тексте, а «дождь» – не всегда.
Таким образом, TF-IDF помогает выделить ключевые слова, уменьшая влияние часто встречающихся и неинформативных слов, таких как «и», «в», «на».

Когда использовать?
Bag-of-Words – если нужно быстро обработать тексты, не обращая внимания на значимость слов.
TF-IDF – если важно учитывать вес слов и выделять действительно значимые термины.

Правильная предобработка данных повышает точность моделей и помогает избежать ошибок в прогнозах.
В этом занятии мы разобрали:

Почему предобработка данных важна.
Как кодировать категориальные признаки (Label Encoding, OHE).
Как масштабировать числовые данные (MinMaxScaler, StandardScaler).
Как работать с текстами (Bag-of-Words, TF-IDF).
В следующем занятии мы разберём, как нейросети решают задачи классификации и регрессии на табличных данных!