
Егор Булычев
Сбербанк
В докладе рассматривается практическая задача масштабирования кодовых агентов — от единичных локальных запусков к массовым экспериментам, воспроизводимой оценке качества и генерации синтетических данных для обучения.
Я покажу, как можно выстроить инфраструктуру для кодовых агентов на основе DAG-пайплайнов, где каждый эксперимент описывается как последовательность изолированных шагов: выполнение агента в окружении репозитория, извлечение изменений (git diff/patch), прогон тестов, расчет метрик качества и автоматическая фильтрация некачественных шагов с помощью LLM-as-judge. Отдельное внимание будет уделено генерации и очистке синтетических данных, а также построению feedback loop для последующего обучения агентов.
В докладе будут затронуты следующие технологии и подходы: контейнеризация и изоляция окружений, оркестрация через Argo Workflows, DAG-моделирование экспериментов, автоматизированное тестирование, LLM-as-judge, асинхронные пайплайны обучения и обновления моделей.
Целевая аудитория: ML-инженеры, backend- и infrastructure-инженеры, исследователи и тимлиды, которые работают с LLM, агентами или ML-системами в продакшене и сталкиваются с задачами масштабирования, воспроизводимости и оценки качества.

Сбербанк