Если в табличных данных присутствуют текстовые столбцы (например, отзывы клиентов, описания товаров), их необходимо
преобразовать в числовой формат, чтобы модель могла с ними работать. Для этого используются специальные методы обработки текста.
1. Bag-of-Words (Мешок слов)Этот метод создаёт список (словарь) всех слов, которые встречаются в тексте, а затем
подсчитывает, сколько раз каждое слово используется.
Пример:
Текст | "погода" | "сегодня" | "отличная" |
Погода сегодня отличная | 1 | 1 | 1 |
Сегодня дождь | 0 | 1 | 0 |
Таким образом, каждый текст превращается в строку с числами, где каждое число показывает, сколько раз конкретное слово встречается в этом тексте.
Минус метода – все слова считаются
одинаково важными, даже если некоторые из них встречаются почти в каждом тексте (например, «сегодня», «очень», «но»).
2. TF-IDF (Улучшенный вариант Bag-of-Words)TF-IDF не просто считает слова, а
оценивает их значимость. Этот метод учитывает два фактора:
- Как часто слово встречается в тексте (чем чаще – тем важнее).
- Как редко слово встречается в других текстах (чем реже – тем оно ценнее).
Например, в новостях про погоду слово «дождь» может быть важнее, чем «сегодня», потому что «сегодня» встречается в каждом тексте, а «дождь» – не всегда.
Таким образом,
TF-IDF помогает выделить ключевые слова, уменьшая влияние часто встречающихся и неинформативных слов, таких как «и», «в», «на».
Когда использовать?Bag-of-Words – если нужно
быстро обработать тексты, не обращая внимания на значимость слов.
TF-IDF – если важно учитывать
вес слов и выделять действительно значимые термины.
Правильная предобработка данных
повышает точность моделей и помогает избежать ошибок в прогнозах.
В этом занятии мы разобрали:
Почему предобработка данных важна.
Как кодировать категориальные признаки (Label Encoding, OHE).
Как масштабировать числовые данные (MinMaxScaler, StandardScaler).
Как работать с текстами (Bag-of-Words, TF-IDF).
В следующем занятии мы разберём, как
нейросети решают задачи классификации и регрессии на табличных данных!