Занятие 3
Сбор и разметка данных для CV
Подписывайтесь на наш Телеграм канал, чтобы не пропустить следующие бесплатные курсы по AI
Новости из мира AI
Разбор новых технологий
Мини-уроки
Кейсы внедрения AI в бизнес и др.
1
Что такое датасеты и почему они важны
Датасет — это набор данных, содержащих изображения (или видео) и соответствующие метки. Метки описывают важную информацию на изображениях: например, что изображено, где находятся объекты или какие действия совершаются. Они необходимы для обучения моделей компьютерного зрения.

Зачем нужны качественные датасеты?

  1. Основа обучения моделей: Нейронные сети обучаются находить закономерности в данных. Если данные плохого качества, результат модели будет неточным.
  2. Специализация: Для узких задач (например, распознавания дефектов на производстве) требуется тщательно подобранный набор данных.
  3. Универсальность: Большие и разнообразные датасеты помогают моделям лучше справляться с задачами в реальной жизни.
Как устроен процесс сбора данных
Сбор данных — это первый шаг к созданию качественного датасета. Он включает несколько этапов:

1. Определение задачи
Перед сбором данных важно понять, для какой задачи они понадобятся. Например:
  • Для детекции объектов нужны изображения с разнообразными объектами.
  • Для сегментации требуется выделение всех пикселей объектов.
  • Для OCR важны изображения с текстом.
2. Источники данных
Существуют несколько источников для сбора данных:
  • Съемка самостоятельно: Использование камер или дронов для создания уникальных датасетов.
  • Интернет: Скачивание изображений с открытых ресурсов (важно учитывать авторские права).
  • Публичные датасеты: Использование уже доступных наборов данных.
  • Генерация данных: Использование синтетических изображений, созданных с помощью программного обеспечения (например, Unity или Blender).
3. Очистка данных
После сбора изображения необходимо проверить:
  • Удалить размытия и дубликаты.
  • Убедиться, что изображения подходят по размеру и формату.
  • Удалить данные, которые могут быть неуместны или нарушать этические нормы.
Разметка данных
Разметка данных — это процесс добавления меток, которые определяют, что находится на изображении или какие области являются значимыми.

1. Что разметить?
В зависимости от задачи требуется разная разметка:
  • Объекты: Области на изображении, где расположены определенные элементы (например, машины, люди, животные).
  • Области: Пиксели, принадлежащие объектам (используется для сегментации).
  • Позы: Расположение ключевых точек тела, рук, головы (для задач pose estimation).
  • Текст: Текстовые области и сами символы (для OCR).
2. Популярные инструменты для разметки
Существует множество инструментов для разметки данных. Вот наиболее популярные из них:
CVAT (Computer Vision Annotation Tool)
  • Инструмент с открытым исходным кодом для ручной разметки данных.
  • Поддерживает bounding boxes, полигоны, точки и траектории.
  • Идеален для малых и средних проектов.
Roboflow
  • Платформа для разметки, предобработки и работы с датасетами.
  • Удобный интерфейс и интеграция с популярными фреймворками.
  • Подходит для больших команд.
Labelbox
  • Облачная платформа для разметки данных с поддержкой автоматизации.
  • Имеет мощные функции для контроля качества разметки.
Supervisely
  • Инструмент с функциями совместной работы и автоматизации.
  • Поддерживает разметку 3D-данных.
LabelImg
  • Простое настольное приложение для разметки bounding boxes.
  • Подходит для новичков и небольших проектов.
Подписывайтесь на наш Телеграм канал, чтобы не пропустить следующие бесплатные курсы по AI
Новости из мира AI
Разбор новых технологий
Мини-уроки
Кейсы внедрения AI в бизнес и др.
1
оставьте заявку на курс по AI
Подберем программу под ваши цели
Продолжительность курса 6 месяцев
1
Не упустите возможность освоить востребованную профессию будущего
Стоимость от 4 719 руб. в месяц
Гарантия трудоустройства
Кто размечает данные?
Разметка данных требует времени и усилий. В зависимости от задач, ее выполняют:
  • Специалисты внутри компании: Обычно для высокоточных задач.
  • Краудсорсинг: Разметка выполняется множеством людей через платформы вроде Amazon Mechanical Turk или Toloka.
  • Аутсорсинговые компании: Профессиональные услуги разметки, предоставляемые специализированными организациями.
Сколько это стоит? Стоимость разметки варьируется в зависимости от сложности:
  • Простой bounding box для одного объекта может стоить $0.01–$0.05.
  • Сложная сегментация пикселей — $0.5–$1 за изображение.
  • Разметка поз или OCR — $0.2–$0.5 за изображение.
Популярные публичные датасеты
Для ускорения разработки часто используются уже существующие публичные датасеты. Вот некоторые из самых популярных:

1. COCO (Common Objects in Context)
  • Один из самых известных датасетов для CV.
  • Содержит изображения с разметкой для детекции, сегментации и определения поз.
  • Примеры: люди, животные, предметы быта.
2. Pascal VOC
  • Классический датасет для детекции объектов.
  • Подходит для начального обучения и тестирования моделей.
3. ImageNet
  • Огромный набор данных для классификации изображений.
  • Используется для предобучения моделей (например, ResNet).
4. Open Images Dataset
  • Набор изображений с аннотациями для более 600 категорий объектов.
  • Подходит для задач детекции и сегментации.
5. LFW (Labeled Faces in the Wild)
  • Специализированный датасет для распознавания лиц.
  • Часто используется для тестирования моделей Face Recognition.
оставьте заявку на курс по AI
Подберем программу под ваши цели
Продолжительность курса 6 месяцев
Не упустите возможность освоить востребованную профессию будущего
Стоимость от 4 719 руб. в месяц
Гарантия трудоустройства
1
Этические аспекты: использование данных и конфиденциальность
Сбор и использование данных связано с рядом этических вопросов:

Авторские права:
  • Использование изображений из интернета без разрешения может нарушать закон.
  • Перед использованием данных необходимо убедиться, что они открыты для публичного использования.
Конфиденциальность:
  • Изображения с людьми должны собираться с их согласия.
  • Размещение данных, содержащих личную информацию, может нарушать права человека.
Справедливость:
  • Необходимо избегать смещения (bias) в данных. Например, если обучать модель только на изображениях одной расы, она может плохо работать с другими.

Сбор и разметка данных — важнейшие этапы разработки моделей компьютерного зрения. Качественный датасет обеспечивает точность и надежность модели. Выбор подходящих инструментов и соблюдение этических норм помогают избежать ошибок и проблем в работе. На следующем уроке мы рассмотрим значение предобученных моделей, процесс их дообучения и преимущества, которые они дают в задачах CV.
оставьте заявку на курс по AI
Подберем программу под ваши цели
Продолжительность курса 6 месяцев
Не упустите возможность освоить востребованную профессию будущего
Стоимость от 4 719 руб. в месяц
Гарантия трудоустройства
1
Занятие 4
Предобученные нейронные сети и их значение