Нейросети
· 11 мин
AI evaluation: HELM, MMLU, Chatbot Arena и production-метрики LLM
Как оценивать качество языковых моделей: академические бенчмарки MMLU и HELM, Chatbot Arena, LLM-as-Judge, golden sets и production-метрики.