MIT-исследование на выборке более 100 000 разработчиков зафиксировало парадокс кодогенерации: ИИ-агенты увеличили объём написанного кода примерно на 180%, но количество кода, реально доходящего до продакшна, выросло лишь на ≈30%. Forbes пишет, что именно этот разрыв между «написать» и «отгрузить» — главный сюжет инвестиционной волны в AI-coding и то, что не видно ни на одном бенчмарке.
Контекст бенчмарков выглядит обманчиво оптимистичным. Всего за полтора года агенты прошли путь от 13% решённых задач SWE-Bench (Devin, начало 2024 года) до показателей в высоких 80-х летом 2026-го. Такой темп убедил многих венчурных инвесторов, что разработка ПО — рынок, который вот-вот будет «решён», и в кодогенерацию закачаны миллиарды долларов через Cognition, Cursor, Codeium и десятки стартапов поменьше.
Сара Гуо, основательница фонда Conviction, на этой неделе раскритиковала такую логику: по её словам, инвестсообщество извлекло из траектории бенчмарков прямо противоположный вывод. Бенчмарки измеряют ту часть работы, которая стремительно становится коммодити, — собственно генерацию строк кода. Ценовую силу удерживает не она, а работа на стыке требований, интеграций и продакшн-операций, где автоматизация по-прежнему буксует.
Ноам Браун, руководивший разработкой reasoning-моделей OpenAI, сформулировал ограничение жёстче: единственный надёжный способ оценить агента на горизонте одного года — запустить его на год. Краткосрочные тесты не показывают, как агент будет вести себя при долгом сопровождении сервиса, рефакторингах и инцидентах. Инвесторы, оценивающие AI-приложения по динамике бенчмарков, по сути измеряют именно ту часть работы инженера, что уже теряет ценовую силу, и переплачивают за решённую задачу, игнорируя ту, которая остаётся открытой.
Источник: https://www.forbes.com/sites/josipamajic/2026/06/10/ai-coding-agents-write-180-more-code-but-ship-only-30-more-software/