Фреймворк Arbor обошёл Claude Code и Codex в 2,5 раза на одинаковом бюджете вычислений

Исследователи представили Arbor — фреймворк автономной оптимизации (AO), который при равном бюджете вычислений в 2,5 раза обогнал Claude Code и Codex на бенчмарке MLE-Bench Lite и собственном наборе задач. Ключевая идея — структурированная долговременная память вместо обычной стенограммы диалога.

Стандартные кодовые агенты, от Claude Code до Codex, держат всю историю работы как один разговор. Задачи автономной оптимизации длятся сотни шагов и легко вылетают за окно контекста, поэтому агент теряет нить эксперимента, застревает на ранних неудачах или гоняется за шумом метрик. Один из авторов Arbor, исследователь Цзинь, формулирует это резко: «Цикл забивается мутными непрослеживаемыми попытками, и на выходе ни результата, ни возможности понять, что вообще менялось».

Arbor вписывается в подход loop engineering, который продвигают создатель OpenClaw Питер Штейнбергер и руководитель Claude Code Борис Черный, — отказаться от одиночных промптов в пользу циклов «наблюдай–рассуждай–действуй–проверяй». Отличие Arbor в устройстве памяти: вместо склейки сообщений фреймворк ведёт явный граф гипотез, фактов и проверенных направлений, и агент может вернуться к старой ветке без повторного прогона.

Тестирование шло на AO-сьюте с задачами по обучению моделей, инженерии агентных оболочек и синтезу данных, а также на публичном MLE-Bench Lite. На одинаковом GPU-бюджете Arbor стабильно опережал базовые агенты в 2,5 раза по итоговой целевой метрике. Авторы подчёркивают: прирост идёт не от более мощной модели, а исключительно от организации цикла и памяти, и это применимо к любому LLM-движку.

Если результаты Arbor подтвердятся на коммерческих задачах, провайдеры вроде Cognition, Anthropic и OpenAI будут вынуждены переписывать своих агентов вокруг долговременной структурированной памяти — иначе на длинных автономных задачах они начнут проигрывать втрое.

Источник: VentureBeat — https://venturebeat.com/orchestration/new-ai-optimization-framework-beats-claude-code-and-codex-by-2-5x-on-the-same-compute-budget

Хотите обсудить проект?