1.
Классификация изображенийКлассификация изображений — это процесс определения, к какому классу принадлежит изображение. Например, модель может определить, изображена ли на картинке кошка, собака или машина.
Пример использования:- Распознавание товаров: Автоматизация сортировки товаров на складе.
- Медицина: Распознавание типов клеток в микроскопических изображениях для диагностики.
Популярные модели для классификации: ResNet, EfficientNet, MobileNet.
2.
Object Detection (обнаружение объектов)Обнаружение объектов — это задача не только определения класса объекта, но и нахождения его местоположения в виде ограничивающего прямоугольника (bounding box). Например, система может найти и выделить все автомобили на изображении.
Пример использования:- Системы безопасности: Распознавание людей или подозрительных предметов в видеопотоке.
- Автономное вождение: Определение других транспортных средств, пешеходов и дорожных знаков.
Популярные подходы и модели: YOLO (You Only Look Once), Faster R-CNN.
3.
Semantic Segmentation (семантическая сегментация)Семантическая сегментация разбивает изображение на области, где каждому пикселю присваивается метка класса. Например, все пиксели, относящиеся к дороге, окрашиваются в один цвет, а здания — в другой.
Пример использования:- Картографирование: Создание точных карт местности для робототехники.
- Медицина: Анализ изображений МРТ для выделения опухолей или других аномалий.
Модели: DeepLab, UNet.
4.
Instance Segmentation (инстанс-сегментация)Инстанс-сегментация похожа на семантическую сегментацию, но выделяет не только классы объектов, но и отдельные экземпляры объектов. Например, вместо "столы" она выделяет "стол 1", "стол 2" и т.д.
Пример использования:- Сельское хозяйство: Подсчет отдельных растений или плодов на полях.
- Производство: Определение дефектов на отдельных деталях.
Популярные подходы: Mask R-CNN.
5.
Pose Estimation (определение позы)Определение позы — это задача выявления ключевых точек человеческого тела, таких как суставы, и построение скелетной модели. Это полезно для анализа движений.
Пример использования:- Спорт: Мониторинг техники спортсменов для улучшения их результатов.
- Развлечения: Отслеживание движений для создания анимации в играх.
Популярные инструменты: OpenPose, Mediapipe.
6.
OCR (распознавание текста)OCR (Optical Character Recognition) — это задача распознавания текста на изображениях, таких как фотографии документов, вывесок или книг.
Пример использования:- Автоматизация документооборота: Сканирование и цифровизация бумажных документов.
- Транспорт: Распознавание номеров автомобилей.
Популярные библиотеки: Tesseract, EasyOCR.
7.
Face Recognition (распознавание лиц)Распознавание лиц включает идентификацию и верификацию людей на основе их лицевых черт. Это одна из самых популярных задач в CV.
Пример использования:- Безопасность: Системы контроля доступа.
- Социальные сети: Автоматическое определение лиц на фотографиях.
Популярные инструменты: DLIB, FaceNet, Mediapipe.