Стажировки
июЛь 2026
проект ГИБРИД (CV И ai)
Исследование применимости современных моделей машинного обучения и больших языковых моделей для прогнозирования дефолта коммерческих организаций

описание проекта

Цель стажировки:
Провести систематическое исследование и сравнительный анализ не менее трёх классов моделей (современные DS-методы, LLM-ориентированные подходы, дополнительный перспективный метод) для прогнозирования дефолта контрагента на горизонте одного года. Базовым ориентиром сравнения служит существующая модель логистической регрессии заказчика с показателем GINI > 66%. Исследование предполагает локальное автономное развертывание всех моделей без обращения к внешним API, реализацию механизмов объяснимости предсказаний, создание демонстрационного графического интерфейса для нетехнических стейкхолдеров и предоставление обоснованных рекомендаций по внедрению наиболее перспективного подхода в продуктивный контур.

Задачи проекта
  • Сформировать перечень признаков для моделирования на основе данных СПАРК (регистрация, финансы за 2–3 года, налоги, арбитраж, исполнительные производства, отраслевые индикаторы).
  • Разработать pipeline извлечения и агрегации данных через API СПАРК, включая обработку пропусков и кодирование категорий.
  • Обучить интерпретируемую DS-модель (градиентный бустинг, случайный лес или табулярная нейросеть) с объяснением через SHAP.
  • Создать LLM-модель на основе генерации текстового описания контрагента и fine-tuning лёгких моделей (RuBERT-tiny, DistilBERT).
  • Реализовать третий подход (графовая нейросеть, survival analysis, гибридный ансамбль или символьная регрессия) с обоснованием выбора.
  • Провести обучение на выборке ≥10 000 контрагентов с кросс-валидацией и оценкой метрик (GINI, ROC-AUC, Precision-Recall AUC, время, память).
  • Разработать REST API для предсказаний по ИНН (одиночный и пакетный режимы) с возвратом вероятности дефолта и блока объяснений в XML.
  • Создать веб-панель (Streamlit/Gradio) для демонстрации моделей с SHAP-графиками и визуализацией текстовых фрагментов.
  • Реализовать интерфейс для перенастройки гиперпараметров и переобучения моделей с загрузкой CSV.
  • Подготовить итоговый отчёт с результатами экспериментов, таблицей метрик, анализом объяснимости и рекомендациями по внедрению.

Польза проекта заказчику:
  • Объективная оценка применимости ML и LLM для скоринга в сравнении с логистической регрессией.
  • Выявление перспективных подходов с потенциалом повышения GINI и снижения ошибок прогнозирования дефолта.
  • Создание прототипов с механизмами объяснимости (SHAP, внимание) для повышения доверия и упрощения решений кредитного отдела.
  • Возможность локального автономного развертывания без внешних API.
  • Готовый инструмент для демонстрации возможностей нетехническим стейкхолдерам.
  • Интерфейс для самостоятельного переобучения и настройки гиперпараметров без участия разработчиков.
  • Обоснованные рекомендации по внедрению лучшей модели или гибридного решения в продуктивный контур Комус.




ООО «КОМУС»

Комус (https://www.komus.ru/) — крупнейшая российская компания в сфере поставки товаров для офиса, школы и творчества. В рамках кредитного скоринга заказчик уже использует модель логистической регрессии с показателем GINI > 66% на исторических данных. В связи с развитием методов машинного обучения, нейронных сетей и больших языковых моделей возникает потребность в систематическом исследовании альтернативных подходов для повышения качества прогнозирования дефолта контрагентов. Заказчик предоставляет доступ к API СПАРК для извлечения данных о контрагентах и, при необходимости, анонимизированный исторический датасет. Инфраструктура предполагает работу на CPU без GPU. Проект носит исследовательский характер с фокусом на локальное развертывание, объяснимость предсказаний и формирование рекомендаций для продуктивного внедрения.