Как реально выбирают LLM для своего кейса в 2025 году

Бенчмарки или кастомные тесты: на что ориентируются специалисты в области AI?

Зачем это исследование

Отдельные рейтинги всё хуже отражают прикладную эффективность моделей, поэтому мы собрали прямые ответы практиков — что они реально смотрят и как тестируют — и свели это в карту ключевых сигналов для выбора LLM-решений.

«Оценить один из самых быстрорастущих и востребованных рынков сегодня только по закрытым опросам или аналитическим отчётам невозможно. Чтобы получить честную и объёмную картину происходящего в сфере LLM, мы собрали прямые ответы от практиков с их реальными бизнес-кейсами. Это позволяет понять, по какой логике компании выбирают решения, и — главное — показать эти инсайты самому рынку»,
— Роман Куцев, фаундер и CEO LLM Arena, автор
45
отобранных специалистов
2025
июль-август
100%
респондентов с практическим опытом с LLM-продуктами

TL/DR Выбор модели становится комплексной инженерной задачей:

  • 82,2% проводят собственные тесты; бенчмарки — вспомогательный сигнал, а не финальный ответ.
  • 26,7% вообще не используют бенчмарки; лишь ≈18% пользуются аналитическими ресурсами наподобие llm-stats.com, artificialanalysis.ai.
  • Цели выбора LLM: баланс качества/цены/скорости, устойчивость без галлюцинаций и вписывание в имеющуюся инфраструктуру.

Кто участвовал в опросе

Мы отобрали самых релевантных респондентов — почти половина респондентов (47%) связаны с DS/ML-направлением. Ещё четверть является AI-билдерами. Другая четверть — менеджмент в сфере AI, включая топ-уровень.

ML Engineer / AI Engineer (27%)
Data Scientist / Researcher (18%)
AI-билдер (20%)
C-level-руководитель (16%)
MLOps / Infrastructure (13%)
AI Product Manager (11%)
Другое (7%)

Кликните по сегменту чарта (Другое), чтобы увидеть ответы в свободной форме.

Как выбирают модель под задачу

82,2% респондентов проводят собственные тесты при выборе модели. Учитывают данные по бенчмаркам — менее половины.

  • Провожу собственные тесты
    (82,2%)
  • Сравниваю метрики на бенчмарках
    (48,9%)
  • Читаю обзоры / посты в телеграм-каналах
    (37,8%)
  • Советуюсь с коллегами / в комьюнити
    (33,3%)
  • Оцениваю косвенные сигналы (скачивания на Hugging Face)
    (31,1%)
  • Другое (например, скачивания на Hugging Face)
    (13,3%)

*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.

Как проводят собственные тесты

«Если вы проводите собственные тесты, расскажите, пожалуйста, насколько возможно, как выглядит ваш тест? На каких данных, как оцениваете?» — Мы приводим открытые ответы респондентов, разделив их на условные кластеры, так как самое ценное — это конкретные сценарии тестирования.

Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Авторская орфография и пунктуация сохранены. Чтобы закрыть ответы, кликните на кластер снова.

Какие бенчмарки используют

Вопрос был открытым. 26,7% респондентов ответили, что принципиально не пользуются бенчмарками.

Мы приводим частотность упоминания конкретных бенчмарков.

  • Никакими
    (26,7%)
  • lmarena.ai
    (13,3%)
  • llmarena.ru
    (11,1%)
  • MERA
    (8,9%)
  • Open LLM (Hugging Face)
    (8,9%)
  • Количество использований на OpenRouter
    (6,7%)
  • LLM под капотом (Ринат Абдуллин)
    (4,4%)
  • MTEB Leaderboard
    (4,4%)
  • MMLU/MMLU-Pro
    (4,4%)
  • Другое (HLE, LiveBench, Aider и т.д.)
    (2,2%)

*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.

(Не)доверие к бенчмаркам

Открытый вопрос: «Почему вы доверяете или не доверяете этим источникам (указанным в предыдущем ответе бенчмаркам)?».

Причины приведены в порядке частотности упоминания, даётся самая репрезентативная цитата. Авторская орфография и пунктуация сохранены.

Почему, в целом, ДОВЕРЯЮТ

1. Метрики из продакшна и social proof
«большой объем тестовой выборки. OpenRouter.ai метрики по реальным использованиям от людей в AI приложениях»
2. Верхнеуровневый фильтр → свой eval
«Бенчмарки использую только для того, чтобы выбрать пул моделей, которые потом вручную тестируем + смотрим, чем пользуются другие команды»
3. Независимые/репутационные источники
«Больше доверяю результату моделей в тех статьях, где авторы статьи не совпадают с авторами модели. Также в среднем больше доверяю результату в статьях которые опубликованы на хороших конференциях. Но конечно лажа бывает везде.»
4. Специализированные/локализованные бенчи
«Чем сложнее и уникальнее бенчмарк, и чем менее он популярен, обычно тем качественнее результаты.»
5. Прозрачная методология и подача
«Для моих целей понятные бенчмарки, просто понять, рассмотреть. Красивые и лаконичные интерфейсы.»

Почему, в целом, НЕ ДОВЕРЯЮТ

1. Методологические риски
«не доверяю, контаминрованы MMLU-Pro (train-on-test), насыщение, а на арене мнение большинства не всегда верное»
2. Предпочтение собственным данным/ручной проверке
«Только практика, собственная практика. Доверия train и test не раскрыто.»
3. Нерелевантность/узость покрытия
«Зарубежные бенчи не сильно релевантные под наши задачи, часто сомнительные по качеству.»
4. Лабораторные условия ≠ прод
«Не доверяю — замеры, как в правильно в идеальных для модели условиях. Как правило сильное расхождение в результатах компании и замерах «энтузиастов»»
5. Низкая дискриминация и хайп
«Все последние модели почти одинаково перформят в общей картине, нет явных причин отбрасывать какие либо»
6. Утилитарные причины «обходить» бенчи
«Потому что нет смысла, всякую мелочь смотреть сейчас времени нет, а большие модели через апи — просто из опыта своего берём сонет или гемини»

Ресурсы по AI/LLM-аналитике

82,2% не прибегают к данным платформ llm-stats.com и artificialanalysis.ai

Какую информацию о моделях ищут и чего не хватает

Чего не хватает и какие альтернативные источники используются?

Приводим наиболее интересные ответы.

Не хватает:

"[Смотрю] Рейтинг моделей, цена API, сравнение моделей. Не хватает более быстрого обновления при выходе новой модели."
"Возможно, не хватает какого-то более user-friendly навигатора по тому, как привести инженера к нужному бенчмарку в зависимости от его задачи и контекста."

Альтернативные источники:

"Я делаю глубокий ресерч каждый раз чтобы оптимально подобрать компоненты новой системы, поэтому из ресурсов могу выделить arxiv и medium"
"llm под капотом"
"llmarena.ru"
"Альтернатива - профильные ТГ каналы."
"Hugging Face"/ "HF Spaces"

На какие сигналы обращают внимание при выборе модели?

  • Частота обсуждений (в статьях, постах)
    (55,6%)
  • Использование в продуктах, похожих на наш
    (55,6%)
  • Кол-во скачиваний (Hugging Face)
    (48,9%)
  • Кол-во лайков/звёзд (Hugging Face, GitHub)
    (48,9%)
  • Другое
    (15,6%)

*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.

Какой информации чаще всего не хватает, чтобы принять решение по модели?

Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Чтобы закрыть ответы, кликните на кластер снова.

Не приведены только совсем неинформативные ответы. Авторская орфография и пунктуация сохранены.

Не хватает информации о реальном применении моделей и отзывах пользователей (25%)
Не хватает технических характеристик и требований к внедрению (19%)
Не хватает собственного тестирования под конкретные задачи (25%)
Не хватает комплексной картины по конкретной модели (29%)
Слишком много хайпа (2%)

Какая информация по моделям наиболее востребована сейчас?

Самое важное — это подбор моделей под конкретные задачи и информация о требованиях для их локального запуска. Также респонденты заинтересованы в простых инструменты для быстрого выбора и графиках, наглядно сравнивающих модели по цене, скорости и качеству.

  • Подборки под тип задач (кодинг, анализ данных и т.д.)
    (88,9%)
  • Инфо о локальном запуске / требованиях к железу
    (75,6%)
  • Быстрый подбор модели по задаче
    (57,8%)
  • Графики «цена vs качество»
    (55,6%)
  • Графики «качество vs скорость»
    (46,7%)
  • Фильтры по лицензии, провайдеру, размеру модели
    (44,4%)
  • Сравнение готовых AI-агентов
    (42,2%)
  • Другое (качество на определенном языке и т.д.)
    (2,2%)

*Можно было выбрать несколько вариантов ответа

Cloud.ru

Попробуйте популярные LLM и AI-модели бесплатно

Доступны более 20 open-source моделей — gpt-oss-120b, DeepSeek, Qwen и QwQ, T-pro-it-2.0, GLM-4.5 и другие

Акция действует для клиентов Cloud.ru до 31.10.2025

Зарегистрироваться и попробовать

Сравнение LLM-based решений

68.9% респондентов интересуются уже не отдельными моделями, а более комплексными готовыми решениями

Какие AI-based решения сейчас сравнивают? Какие пайплайны и как их можно было бы упростить?

Мы отобрали наиболее интересные цитаты. Авторская орфография и пунктуация сохранены. Чтобы увидеть цитату полностью, кликните на неё. Чтобы закрыть цитату, кликните на неё снова.

claude code, codex, выбираю вместо них...
google agents sdk, Agno agents, OpenAI agents sdk...
Сейчас мы сравниваем модели семейства e5 и bge-m3...
Инженерные агенты, сделать какой-то вариант эвалюации...
RAG по базе знаний
Claude Code, Codex, Junie. Хотелось бы закинуть таску...
Научные автономные исследования...
Стоимость, временные затраты на системный промт...
claude code vs cursor
Строю RAG, подбираю модели на каждый шаг...
Много специфичности в мед данных...
Строю агентов, мне бы помог автоматический прогон...
Автоматизировать прогоны eval сетов...
Модель для кодировки в курсор...
Тестами, например пробую сделать сайт 2-3 сервисами...
Запуск пайплайна в песочнице сразу на нескольких моделях...
rag сценарий

А зачем так заморачиваться с LLM?

Мы отобрали самые интересные цитаты и сгруппировали их в условные кластеры.

Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Авторская орфография и пунктуация сохранены. Чтобы закрыть ответы, кликните на кластер снова.

Точки зрения

Приводим экспертные мнения, полученные в ходе проведения опроса.

Кликните на блок, чтобы увидеть ответы в свободной форме.

«В 90% случаев (среди кейсов, которые я наблюдал)... — Ринат Абдуллин, «LLM под капотом»
«Я давно не особо обращаю внимание на очень популярные бенчмарки вроде MMLU или SWE-bench... — Рефат Аметов, «Refat Talks: Tech & AI»
«Есть огромная разница между массовой индустрией и тем, как выбираются модели... Артём Макеенок, AI Product Lead, Open Mineral

Информационные партнёры исследования

А также сообщества:

Отдельная благодарность Александру Кукушкину.

О LLM Arena

Исследование провела LLM Arena — платформа для объективного сравнения 100 передовых LLM (включая отечественные) и text-to-image-моделей и ведущий российский бенчмарк на основе 100 000+ пользовательских оценок.