УРОК 9:
Подготовка и разметка датасетов
Подготовка данных и их разметка — важнейшие этапы работы над любым AI-проектом. От качества датасета во многом зависит, насколько точной будет модель, поскольку именно на основе этих данных AI учится распознавать объекты, находить закономерности и принимать решения. В этом уроке мы рассмотрим, как происходит сбор, подготовка и разметка данных для разных задач — от компьютерного зрения и анализа текста до обработки табличных данных и временных рядов.
Оставить заявку на курс по AI
Подберем курс под ваши цели
1
Что такое датасет и зачем он нужен?
Датасет — это набор данных, который служит "учебным материалом" для AI. Например, для задачи распознавания изображений датасет может включать тысячи фото, каждая из которых имеет подпись, описывающую, что на ней изображено. Подобный материал помогает AI "учиться", чтобы затем успешно справляться с реальными задачами.

Но одного сбора данных недостаточно — их нужно разметить, то есть присвоить каждому элементу датасета нужные метки или пометки. Это как учебник с подписями к картинкам, который помогает быстрее понимать содержание изображений.
Датасеты для компьютерного зрения (CV) и их разметка
Компьютерное зрение требует большого количества изображений, которые должны быть не только разнообразными, но и правильно размеченными. Разметка для CV может включать несколько видов меток:

  • Обнаружение объектов (Object Detection) — AI находит и определяет местоположение объектов на изображении. Например, на фотографии улицы могут быть выделены рамки вокруг автомобилей, людей и зданий, и каждая рамка будет подписана, что это за объект. Разметка в этом случае требует не только указания, что на изображении, но и выделения области, где находится объект.

  • Сегментация — более детальная разметка, при которой каждый пиксель изображения указывает на принадлежность к тому или иному объекту. Например, на изображении леса AI будет видеть каждое дерево как отдельный объект, отличая его от неба или земли. Сегментация особенно важна в медицине (например, для анализа снимков), а также в автопилотах, где важно чётко различать объекты.
Датасеты для нейро-сотрудников на базе GPT (RAG)
Нейро-сотрудники, работающие на базе GPT, обучаются на текстовых базах данных, и для создания подобных систем важно, чтобы тексты были актуальными и полезными. RAG (Retrieval-Augmented Generation) — это подход, при котором нейро-сотрудник может обращаться к базе знаний, извлекая оттуда нужную информацию.

Например, для FAQ-системы компании создаётся база текстов, содержащая ответы на часто задаваемые вопросы. Это может быть всё, от инструкций по продуктам до справочной информации. При RAG подходе нейро-сотрудник использует эту базу для ответов на запросы, извлекая нужные данные и комбинируя их с заранее обученными знаниями. Подготовка и структурирование такой базы знаний позволяет повысить точность ответов нейро-сотрудника и сделать его более полезным для пользователей.
Датасеты для табличных данных и временных рядов
  • Табличные данные: такие датасеты включают строки и столбцы с числовыми и категориальными значениями. Например, таблица с информацией о клиентах: возраст, доход, предпочтения. В этом случае разметка чаще всего не требуется, но важно удалить ошибки, заполнить пропуски и нормализовать данные, чтобы модель могла работать с чистыми и качественными данными.

  • Временные ряды: это данные, собранные последовательно во времени, например, курсы валют, температура, продажи за день и т.д. Датасеты для временных рядов требуют сортировки и проверки на аномалии. Например, в данных о температуре могут быть внезапные "скачки", которые нужно устранить, чтобы AI не воспринимал их как закономерности.
Влияние качества датасета на точность модели
Чем точнее и качественнее датасет, тем лучше результаты модели. Если в датасете много ошибок или он недостаточно разнообразен, AI может ошибаться и "неправильно" учиться. Например, если для обнаружения объектов используется датасет, где большинство изображений сделаны в солнечную погоду, модель может работать хуже в условиях дождя или тумана.
Стоимость и сложность разметки
Разметка данных может быть дорогой и трудоёмкой задачей, особенно если требуется точная сегментация или работа с большими объёмами данных. Например, разметка медицинских снимков требует участия специалистов и может стоить десятки или даже сотни долларов за каждое изображение. Для текстовых данных разметка может быть менее затратной, но здесь тоже важны правильные категории и качественный анализ, что требует времени.

Таким образом, подготовка и разметка датасетов играют важнейшую роль в качестве и точности модели, и вложения в эти процессы позволяют получать более надёжные и точные результаты.
Задание:
  1. Как вы думаете, какой вид разметки был бы необходим для датасета изображений автомобилей на дороге? Объясните, почему.
  2. Если бы вы создавали базу знаний для нейро-сотрудника в компании, какую информацию вы бы включили?
  3. Как вы считаете, как бы изменились результаты модели, если бы датасет содержал много ошибок?
10 урок:
Что делает AI-разработчик и как выглядит его рабочий день
Оставить заявку на курс по AI
Подберем курс под ваши цели
1