Бенчмарк-набор русскоязычных диалогов
разной тематики и длины
Объективная количественная оценка пригодности open-source моделей (Qwen, DeepSeek, Yi, GLM) для русскоязычной корпоративной среды и работы с клиентами без неприятных сюрпризов в проде
Китайские open-source LLM (Qwen, DeepSeek, Yi, GLM и др.) обучены на мультиязычных корпусах с доминированием китайского и английского. При инференсе на русском языке модель может непредсказуемо переключиться на китайский – частично или полностью. Для enterprise-систем (банкинг, госсервисы, клиентское обслуживание) это неприемлемо.
Задача исследования – количественно измерить частоту, условия и характер языковых пробоев для каждой модели, выявить факторы влияния и сформировать рейтинг устойчивости.
Полный исследовательский конвейер:
разной тематики и длины
запуск моделей с управляемыми параметрами (размер, квантизация, system prompt, температура)
программная метрика на выход модели
модель × квантизация × system prompt × тематика × длина диалога × температура
единая ось сопоставления устойчивости
для встраивания контроля пробоев в production-мониторинг
для русскоязычного enterprise-применения – снижение риска внедрения непригодной модели.
(квантизация, system prompt, температура) – позволяет выбрать конфигурацию minimum risk без отказа от целевой модели.
основание для бюджетного решения «какую модель внедрять и в какой конфигурации».
встраивается в production-мониторинг любой системы на open-source LLM, без зависимости от исследователей.
конфигурация: модель × квантизация (FP8 / FP4)
ответов проанализировано автоматическим классификатором
метрики устойчивости: BR / SBR / MCR
tier-рекомендаций по выбору модели под сценарий