Занятие 2
Подготовка табличных данных перед обучением
Подписывайтесь на наш Телеграм канал, чтобы не пропустить следующие бесплатные курсы по AI
Новости из мира AI
Разбор новых технологий
Мини-уроки
Кейсы внедрения AI в бизнес и др.
1
Перед тем как обучить модель машинного обучения, нужно правильно подготовить данные. Качество предобработки напрямую влияет на точность предсказаний и устойчивость модели.
В этом занятии мы разберём основные этапы подготовки табличных данных, такие как кодирование категориальных признаков, нормализация числовых данных и обработка текстовой информации.
Почему предобработка данных важна для моделей?
Большинство алгоритмов машинного обучения работают только с числовыми данными. Однако в реальных таблицах могут встречаться текстовые, категориальные и числовые признаки с разными диапазонами значений. Без правильной предобработки модель может работать некорректно.
Вот основные причины, почему подготовка данных важна:

Машинное обучение "не понимает" текст
  • Если у нас есть колонка с названиями городов, например, Москва, Париж, Лондон, то модель не сможет использовать их без предварительного кодирования.
Разные масштабы числовых данных
  • Если в таблице есть возраст (от 0 до 100 лет) и зарплата (от 20 000 до 1 000 000 рублей), модель может "считать" зарплату более важным параметром просто из-за её больших значений.
Тексты требуют особой обработки
  • Например, отзывы клиентов, комментарии или статьи нельзя просто вставить в таблицу. Их нужно перевести в числовой формат (Bag-of-Words, TF-IDF).
Чтобы избежать этих проблем, используются специальные методы предобработки данных, о которых мы поговорим ниже.
Кодирование категориальных признаков: Label Encoding, One-Hot Encoding (OHE)
ЧЧто такое категориальные признаки?
Категориальные признаки – это текстовые или номинальные данные в таблице. Примеры:
  • Цвет автомобиля: красный, синий, чёрный
  • Город проживания: Москва, Париж, Лондон
  • Тип товара: телефон, ноутбук, планшет
Такую информацию нужно перевести в числовой формат, используя Label Encoding или One-Hot Encoding (OHE).
Label Encoding (Числовая кодировка)
Label Encoding – это метод, при котором каждому уникальному значению присваивается число. Например:

Цвет

Код (Label Encoding)

Красный

0

Синий

1

Чёрный

2


Этот метод прост и эффективен, но у него есть недостаток – модель может подумать, что чёрный (2) важнее, чем красный (0), хотя на самом деле у цветов нет порядка.
One-Hot Encoding (OHE, "Горячее кодирование")
One-Hot Encoding создаёт отдельные колонки для каждого уникального значения:

Красный

Синий

Чёрный

1

0

0

0

1

0

0

0

1


Этот метод исключает "порядок" чисел, но увеличивает размер таблицы, если категорий слишком много.
Когда использовать?
  • Label Encoding – если категорий мало (2–5 штук).
  • One-Hot Encoding – если категорий больше, но их количество ограничено (например, до 20).
оставьте заявку на курс по AI
Подберем программу под ваши цели
Продолжительность курса 6 месяцев
1
Не упустите возможность освоить востребованную профессию будущего
Стоимость от 4 719 руб. в месяц
Гарантия трудоустройства
Нормализация и стандартизация числовых данных
Числовые данные могут находиться в разных диапазонах. Например, возраст человека может варьироваться от 0 до 100 лет, а доход — от 20 000 до 1 000 000 рублей. Если оставить данные в таком виде, модель может считать признаки с большими значениями (например, доход) более значимыми, чем признаки с небольшими значениями (например, возраст). Это может привести к искажённым предсказаниям.

Поэтому перед обучением модели числовые данные приводят к единому масштабу. Для этого существуют два основных подхода:

1. Нормализация (MinMaxScaler)
Этот метод преобразует все значения в диапазон от 0 до 1. При этом самое маленькое значение становится 0, самое большое – 1, а все остальные значения распределяются между ними.

Пример:

До нормализации (руб.)

После нормализации

20 000

0.0

500 000

0.5

1 000 000

1.0


Нормализация используется, когда важно сохранить пропорции между значениями. Например, в финансовых расчётах, где доходы людей могут сильно отличаться, но относительные различия должны сохраняться.

2. Стандартизация (StandardScaler)
Этот метод приводит данные к среднему значению 0 и устраняет различия в масштабах. После стандартизации большинство значений будет находиться в диапазоне от -1 до 1, но возможны и отклонения.
Стандартизация применяется, если данные распределены примерно равномерно и важно, чтобы каждый признак имел одинаковый вес. Например, если анализируются медицинские показатели, такие как температура тела, уровень сахара в крови и давление, их стоит привести к единому масштабу, чтобы модель не выделяла какой-то из признаков только из-за его изначального масштаба.

Когда что использовать?
MinMaxScaler – если данные имеют разный масштаб, но важно сохранить пропорции между значениями.
StandardScaler – если данные имеют приблизительно нормальное распределение и важно, чтобы каждый признак имел сопоставимый вес.

В большинстве случаев стандартизация подходит лучше, но если данные сильно отличаются по диапазону, может понадобиться нормализация.
Работа с текстовыми данными: Bag-of-Words и TF-IDF
Если в табличных данных присутствуют текстовые столбцы (например, отзывы клиентов, описания товаров), их необходимо преобразовать в числовой формат, чтобы модель могла с ними работать. Для этого используются специальные методы обработки текста.

1. Bag-of-Words (Мешок слов)
Этот метод создаёт список (словарь) всех слов, которые встречаются в тексте, а затем подсчитывает, сколько раз каждое слово используется.

Пример:

Текст

"погода"

"сегодня"

"отличная"

Погода сегодня отличная

1

1

1

Сегодня дождь

0

1

0


Таким образом, каждый текст превращается в строку с числами, где каждое число показывает, сколько раз конкретное слово встречается в этом тексте.
Минус метода – все слова считаются одинаково важными, даже если некоторые из них встречаются почти в каждом тексте (например, «сегодня», «очень», «но»).

2. TF-IDF (Улучшенный вариант Bag-of-Words)
TF-IDF не просто считает слова, а оценивает их значимость. Этот метод учитывает два фактора:
  • Как часто слово встречается в тексте (чем чаще – тем важнее).
  • Как редко слово встречается в других текстах (чем реже – тем оно ценнее).
Например, в новостях про погоду слово «дождь» может быть важнее, чем «сегодня», потому что «сегодня» встречается в каждом тексте, а «дождь» – не всегда.
Таким образом, TF-IDF помогает выделить ключевые слова, уменьшая влияние часто встречающихся и неинформативных слов, таких как «и», «в», «на».

Когда использовать?
Bag-of-Words – если нужно быстро обработать тексты, не обращая внимания на значимость слов.
TF-IDF – если важно учитывать вес слов и выделять действительно значимые термины.

Правильная предобработка данных повышает точность моделей и помогает избежать ошибок в прогнозах.
В этом занятии мы разобрали:

Почему предобработка данных важна.
Как кодировать категориальные признаки (Label Encoding, OHE).
Как масштабировать числовые данные (MinMaxScaler, StandardScaler).
Как работать с текстами (Bag-of-Words, TF-IDF).
В следующем занятии мы разберём, как нейросети решают задачи классификации и регрессии на табличных данных!
оставьте заявку на курс по AI
Подберем программу под ваши цели
Продолжительность курса 6 месяцев
Не упустите возможность освоить востребованную профессию будущего
Стоимость от 4 719 руб. в месяц
Гарантия трудоустройства
1
Занятие 3
Классические ML-алгоритмы для табличных данных