Бенчмарки или кастомные тесты: на что ориентируются специалисты в области AI?
Отдельные рейтинги всё хуже отражают прикладную эффективность моделей, поэтому мы собрали прямые ответы практиков — что они реально смотрят и как тестируют — и свели это в карту ключевых сигналов для выбора LLM-решений.
«Оценить один из самых быстрорастущих и востребованных рынков сегодня только по закрытым опросам или аналитическим отчётам невозможно. Чтобы получить честную и объёмную картину происходящего в сфере LLM, мы собрали прямые ответы от практиков с их реальными бизнес-кейсами. Это позволяет понять, по какой логике компании выбирают решения, и — главное — показать эти инсайты самому рынку»,
Мы отобрали самых релевантных респондентов — почти половина респондентов (47%) связаны с DS/ML-направлением. Ещё четверть является AI-билдерами. Другая четверть — менеджмент в сфере AI, включая топ-уровень.
Кликните по сегменту чарта (Другое), чтобы увидеть ответы в свободной форме.
82,2% респондентов проводят собственные тесты при выборе модели. Учитывают данные по бенчмаркам — менее половины.
*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.
«Если вы проводите собственные тесты, расскажите, пожалуйста, насколько возможно, как выглядит ваш тест? На каких данных, как оцениваете?» — Мы приводим открытые ответы респондентов, разделив их на условные кластеры, так как самое ценное — это конкретные сценарии тестирования.
Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Авторская орфография и пунктуация сохранены. Чтобы закрыть ответы, кликните на кластер снова.
Вопрос был открытым. 26,7% респондентов ответили, что принципиально не пользуются бенчмарками.
Мы приводим частотность упоминания конкретных бенчмарков.
*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.
Причины приведены в порядке частотности упоминания, даётся самая репрезентативная цитата. Авторская орфография и пунктуация сохранены.
Приводим наиболее интересные ответы.
*Можно было выбрать несколько вариантов ответа. Кликните по строке «Другое» для того, чтобы увидеть варианты ответов.
Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Чтобы закрыть ответы, кликните на кластер снова.
Не приведены только совсем неинформативные ответы. Авторская орфография и пунктуация сохранены.
Самое важное — это подбор моделей под конкретные задачи и информация о требованиях для их локального запуска. Также респонденты заинтересованы в простых инструменты для быстрого выбора и графиках, наглядно сравнивающих модели по цене, скорости и качеству.
*Можно было выбрать несколько вариантов ответа
Доступны более 20 open-source моделей — gpt-oss-120b, DeepSeek, Qwen и QwQ, T-pro-it-2.0, GLM-4.5 и другие
Акция действует для клиентов Cloud.ru до 31.10.2025
Зарегистрироваться и попробовать68.9% респондентов интересуются уже не отдельными моделями, а более комплексными готовыми решениями
Мы отобрали наиболее интересные цитаты. Авторская орфография и пунктуация сохранены. Чтобы увидеть цитату полностью, кликните на неё. Чтобы закрыть цитату, кликните на неё снова.
Мы отобрали самые интересные цитаты и сгруппировали их в условные кластеры.
Чтобы увидеть ответы респондентов, кликните на соответствующий кластер. Авторская орфография и пунктуация сохранены. Чтобы закрыть ответы, кликните на кластер снова.
Приводим экспертные мнения, полученные в ходе проведения опроса.
Кликните на блок, чтобы увидеть ответы в свободной форме.
Отдельная благодарность Александру Кукушкину.
Исследование провела LLM Arena — платформа для объективного сравнения 100 передовых LLM (включая отечественные) и text-to-image-моделей и ведущий российский бенчмарк на основе 100 000+ пользовательских оценок.
Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.