Forward-deployed-инженеры OpenAI вместе с Thrive Holdings полгода строили Tax AI — агента для подготовки сложных налоговых деклараций — для сети Crete из 30+ бухгалтерских фирм. Главная фишка не в самом агенте, а в том, что инженеры превратили продакшн-сбои в топливо для автономной доработки через Codex.

Обычная история: система прошла лабораторные тесты, ушла в прод, поломалась на edge-кейсах. Команда неделями копается в трассах, правит промпты, переписывает eval’ы. Цикл обратной связи ручной и медленный — пока инженер сам его не двинет, ничего не происходит. OpenAI описывает, как они закрыли этот цикл: Codex получает структурированный сигнал из продакшна и сам пишет фиксы.

Архитектура такая: bounded-окружение для Codex разделено на writable worktree и read-only production context. В worktree — продуктовая поверхность, которую агент может править, целевые и регрессионные eval’ы, описывающие успех, плюс переиспользуемые skills/docs. В read-only — продакшн-трасса, исходные документы, предсказание Tax AI, финальная декларация и документация налогового движка. Codex расследует сбой, не трогая улики, и предлагает изменение, которое проходит eval’ы.

Кейс важный по двум причинам. Во-первых, налоговая подготовка — это не маркетинговые тексты: ошибка стоит штрафов и переделок, поэтому self-improving loop с жёсткой eval-инфраструктурой выглядит как реальный паттерн для регулируемых вертикалей. Во-вторых, OpenAI продаёт Codex не как copilot для кода, а как платформу-движок самоулучшения продукта внутри клиентских доменов. Если паттерн перенесут в медицину, юридический документооборот и страховой андеррайтинг, это будет тихая революция в продуктовой разработке.

Источник: https://openai.com/index/building-self-improving-tax-agents-with-codex/