Цель стажировки:Сократить время ручного сопоставления требований из технического задания заказчика с фактическими параметрами из паспорта изделия поставщика с 20–40 минут до 3–5 минут за счёт автоматического извлечения, нормализации и сравнения характеристик. Исключить ошибки, связанные с пропущенными параметрами и некорректным пересчётом единиц измерения, при полном сохранении контроля за принятием решений специалистом.
Задачи проекта- Разработка веб-приложения на Python (FastAPI) и React для автоматизированной проверки соответствия технического задания заказчика и паспорта изделия поставщика.
- Реализация загрузки и обработки документов в форматах PDF, Excel, Word, а также данных по URL-ссылкам.
- Создание модуля извлечения текста и технических характеристик из документов с поддержкой OCR для сканированных файлов через Datalab API и Tesseract.
- Разработка системы интеллектуального извлечения параметров с использованием комбинированного подхода:
- структурные таблицы → регулярные выражения → LLM-модели (GigaChat API или локальная Qwen).
- Внедрение обязательной проверки достоверности данных — каждое извлечённое значение должно присутствовать в исходном документе.
- Создание нормализатора параметров на основе словаря синонимов и унификации наименований характеристик.
- Реализация автоматической конвертации единиц измерения (бар → МПа, л/мин → м³/ч, дюймы → мм и др.) с покрытием тестами.
- Разработка движка сопоставления характеристик, который определяет статус каждого параметра: соответствует, не соответствует, требует проверки или не найден.
- Создание системы формирования итоговых отчётов в Excel и PDF с визуальной цветовой маркировкой результатов проверки.
Польза проекта заказчику:
- Сокращение времени на одну проверку с 20–40 минут до 3–5 минут при объёме 150–200 сопоставлений в месяц.
- Исключение ошибок из-за пропущенных параметров и неправильного пересчёта единиц измерения.
- Полная прозрачность результата: каждое значение в отчёте содержит цитату из исходного документа с указанием страницы или ячейки.
- Накопление истории успешных сопоставлений для повторного использования в аналогичных тендерах.
- Снижение когнитивной нагрузки на менеджера: вместо двух документов и Excel — структурированный отчёт с цветовой индикацией расхождений.
- Возможность ручной корректировки при сохранении оригинала — ИИ не принимает решений, только извлекает данные.