Доклад

Масштабирование кодовых агентов: инфраструктура, оценка качества и синтетические данные

Зал 2На английском языке

В докладе рассматривается практическая задача масштабирования кодовых агентов — от единичных локальных запусков к массовым экспериментам, воспроизводимой оценке качества и генерации синтетических данных для обучения.

Я покажу, как можно выстроить инфраструктуру для кодовых агентов на основе DAG-пайплайнов, где каждый эксперимент описывается как последовательность изолированных шагов: выполнение агента в окружении репозитория, извлечение изменений (git diff/patch), прогон тестов, расчет метрик качества и автоматическая фильтрация некачественных шагов с помощью LLM-as-judge. Отдельное внимание будет уделено генерации и очистке синтетических данных, а также построению feedback loop для последующего обучения агентов.

В докладе будут затронуты следующие технологии и подходы: контейнеризация и изоляция окружений, оркестрация через Argo Workflows, DAG-моделирование экспериментов, автоматизированное тестирование, LLM-as-judge, асинхронные пайплайны обучения и обновления моделей.

Целевая аудитория: ML-инженеры, backend- и infrastructure-инженеры, исследователи и тимлиды, которые работают с LLM, агентами или ML-системами в продакшене и сталкиваются с задачами масштабирования, воспроизводимости и оценки качества.

Спикеры

Расписание