Русский язык достаточно сильно отличается от языков романской группы, хотя бы потому, что например, английский язык аналитический, а русский - синтетический, и есть специальные бенчмарки для русского языка и для перевода на русский язык. Хорошо про создание бенчмарков написано
здесь в статье про MERA — инструктивный бенчмарк для оценки фундаментальных
русскоязычных моделей (
https://mera.a-ai.ru/ru). Данный проект включает:
● 21 задание в инструктивном формате для оценки различных навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое;
● Тестирование решения этих же задач людьми для сравнения уровня возможностей модели с уровнем возможностей человека (human benchmark);
● Оценку некоторых открытых моделей, бейзлайнов, таких как LLAMA и другие;
●
Код на основе открытой библиотеки lm-harness для замеров моделей в едином формате;
●
Сайт лидерборда с удобной системой сабмита и рейтингом.