Журнал Nature Medicine опубликовал исследование, в котором три универсальные модели — OpenAI GPT-5.2, Google Gemini 3.1 Pro Preview и Anthropic Claude Opus 4.6 — обошли специализированные клинические инструменты OpenEvidence и UpToDate Expert AI на медицинском бенчмарке MedQA. Лидером стала Gemini с точностью 97,4%, второе место занял GPT-5.2 (94,2%), третье — Claude Opus 4.6 (90,2%). Клинические системы остались позади: OpenEvidence — 89,6%, UpToDate — 88,4%.

Авторы прогнали все пять систем через одинаковый набор вопросов MedQA — стандартного теста на медицинские знания уровня американского экзамена USMLE. Дополнительно в эксперимент включили автоматические ответы Google Search AI Overview, которые врачи регулярно видят в обычной поисковой выдаче. Это позволило оценить, что получает практикующий специалист, обращающийся не к платному клиническому продукту, а к обычному веб-поиску.

Статистические тесты McNemar подтвердили разрыв: Gemini обыграл OpenEvidence, UpToDate и Claude с P < 1×10⁻⁴, а GPT превзошёл OpenEvidence (P = 0,008) и UpToDate (P = 0,0004). Слепая оценка двенадцатью клиницистами дала тот же результат: согласованность между экспертами составила W = 0,651 (P = 2,3×10⁻⁷), все они поставили frontier-LLM выше специализированных платных сервисов.

Вывод исследования бьёт по бизнес-модели медицинского SaaS: дорогие подписные инструменты типа OpenEvidence и UpToDate, годами строившиеся на верифицированных базах знаний и отзывах ключевых клиницистов, проигрывают универсальным моделям, обученным на широких корпусах. Авторы подчёркивают, что MedQA — это закрытые вопросы с готовыми вариантами ответа, а не реальные клинические ситуации, и переносить вывод на работу с пациентом напрямую нельзя. Но для рутинного справочника и подсказки «второго мнения» врачам теперь проще открыть GPT или Gemini, чем платить за нишевый продукт.

Источник: https://www.nature.com/articles/s41591-026-04431-5