Способы оценки LLM

Автор статьи, Еклашева О.В.

Сейчас искусственный интеллект развивается семимильными шагами, в том числе появляются новые и совершенствуются существующие большие языковые модели (LLM), которые предназначены для обработки естественного языка и генерации текста. И встает проблема оценки качества этих моделей, их ранжирования.

Если исходить из обычной логики и рассматривать ответ LLM как ответ человека, то мы ждем точности, полноты и соответствия контексту. Оценка качества модели зависит от цели использования. Чем лучше модель справляется со своей задачей, тем модель лучше. И чтобы специалисты по большим языковым моделям могли как-то ориентироваться в многообразии моделей они для оценки используют бенчмарки — набор сложных заданий, решив которые, можно оценить способности языковых моделей. Благодаря бенчмаркам создатели моделей могут получить метрики, чтобы понять, как применять ту или иную модель; а исследователи получают объективную информацию, чтобы корректнее обучать свою модель, адаптировать ее, понимать, в какую сторону развивать исследования.

Бенчмаркинг как инструмент оценки LLM

Основным инструментом для оценки LLM являются бенчмарки - набор задач или тестов, созданных для проверки моделей. Бенчмарки проверяют различные аспекты владения языком, например, такие как:

Знания и мультимодальное понимание языка, например, бенчмарк MMLU (Multi-Modal Language Understanding - https://paperswithcode.com/dataset/mmlu ). Сюда могут входить:

VizWiz (https://paperswithcode.com/dataset/vizwiz): Бенчмарк, проверяющий способность модели к пониманию текста, заданного визуальными средствами, например, картинками.
TextVQA (https://paperswithcode.com/dataset/textvqa ): Задачи типа вопрос-ответ, где модель должна ответить на вопросы о содержимом изображения, используя текстовую информацию.
Image Captioning Tasks (https://arxiv.org/abs/2405.19092) : Задачи, проверяющие способность модели генерировать подписи для изображений, сочетая текст и визуальную информацию.
Visual Question Answering: Задачи, где модели предлагаются вопросы о визуальном контенте, и модель должна дать ответ, комбинируя информацию из текста и изображения. (https://paperswithcode.com/dataset/visual-question-answering )

2.Понимание языка и его особенностей, в частности это могут быть задачи определения игры слов (https://alt.qcri.org/semeval2017/task7/) определение причинно-следственных связей.

SuperGLUE (https://super.gluebenchmark.com/ ) : Набор сложных языковых задач, включая задания на понимание текста, вывод следствий, определение и другие.
Winograd Schema Challenge (https://paperswithcode.com/dataset/wsc ): Задачи на понимание контекста и логическое рассуждение, где модель должна правильно интерпретировать зависимости между элементами текста.

3.Здравый смысл, например CommonSenseQA

4.Анализ контекста, например, LAMBADA датасет https://paperswithcode.com/dataset/lambada модель должна предсказать одно слово, которое логично впишется в контекст ситуации

5.Понимание текста (вопросы по тексту). В основном это открытые вопросы.

SQUAD (https://rajpurkar.github.io/SQuAD-explorer/ ) – открытые вопросы по тексту.
Корпус NQ содержит вопросы от реальных пользователей, где требуется, чтобы LLM осмыслили всю статью в Википедии, которая может содержать ответ на вопрос, а может и не содержать его.

6.Логика - это про то, что из чего следует. LogicQA

7.Кодо-генерация и математика, например APPS, задачи кодогенерации

Это далеко не все существующие бенчмарки. Лучше всего из того, что я видела, эта тема описана в статье https://habr.com/ru/articles/814665/. В большинстве случаев бенчмарки формируют свою метрику, если это тесты, их можно оценивать с помощью accuracy.

Бенчмарков много, и это хорошо. Плохая новость - то, что давно существующие бенчмарки могли попасть в обучение моделей, что меняет оценку качества модели. Это настолько серьезная проблема, что есть даже специальные тесты, где проверяется, попал ли текст бенчмарка в обучение.

В зависимости от типа задачи могут использоваться автоматические метрики, лтбо мануальная оценка экспертами. К автоматическим можно отнести (https://learn.microsoft.com/ru-ru/azure/ai-studio/concepts/evaluation-metrics-built-in?tabs=warning ) Azure от Learn.microsoft

Лидерборды и оценки в них

На рисунке показана панель выбора метрик, на основе которых формируется лидерборд основного хранилища больших языковым моделей открытых LLM a Hugging Face Space by open-llm-leaderboard , выпущенного 26 июня 2024 года.

На панели содержатся следующие показатели качества: IFEval, BBH, MATH Lvl 5, GPQA, MUSR, MMLU-PRO и они же с дополнение Raw (сами метрики варьируются от 0 до 100, Raw метрики- доли единицы). Дадим описание оценок, которым шло сравнение моделей
Сам лидерборд на 15 августа 2024

Оценка IFEval (Inference and Fidelity Evaluation) позволяет оценить как точность, так и качество сгенерированного текста. Inference: Сначала модель оценивается на способность генерировать текст. Оценка проводится на основе того, насколько хорошо модель может справляться с задачей генерации текста на большом объеме данных. Fidelity: Затем происходит оценка качества сгенерированного текста. Это включает в себя проверку на соответствие сгенерированного текста ожидаемому результату, а также оценку степени сохранения смысла и структуры текста. Далее вычисляется итоговая оценка IFEval, которая учитывает как способность модели генерировать текст, так и качество этого текста. Чем выше оценка IFEval, тем лучше модель справляется с задачей генерации текста.

Оценка BBH (Billion Benchmark Huggingface) - это метрика, которая используется для оценки качества работы больших языковых моделей с миллиардами параметров. Эта метрика предназначена для сравнения различных моделей на больших объемах данных и задачах.
Оценка BBH включает в себя оценку качества модели по нескольким критериям, таким как точность ответов, скорость обработки запросов, способность модели к генерации текста, адекватность ответов и другие параметры. При оценке больших языковых моделей с помощью Оценки BBH учитывается как качество ответов модели на различные запросы, так и ее общая производительность при работе с большим объемом данных.

Оценка MATH Lvl 5 оценивает способность модели решать математические задачи на уровне пятого класса.

Оценка GPQA (Generalized Prompt Question Answering) предполагает использование обобщенных промптов (prompt), то есть вопросов или заданий, которые модель должна выполнить или на которые она должна ответить. Промпты должны быть разнообразными, чтобы оценить различные аспекты работы модели. Модель запускается на выполнение заданий, используя выбранные промпты. Она генерирует ответы на вопросы или выполняет задания в соответствии с поставленными задачами. Полученные ответы оцениваются на соответствие заданным критериям. В случае вопросно-ответной системы, оценка может проводиться на основе точности ответов, их полноты, адекватности и т.д.

Оценка MUSR (Multilingual Unsupervised Semantic Representation) используется для анализа семантического представления текста. Для текстовых данных на различных языках извлекаютсяэмбеддинги, которые представляют собой числовые векторы, отражающие семантическое содержание текста. На основе полученных эмбеддингов вычисляется семантическая близость между текстами на разных языках. Это позволяет оценить, насколько хорошо модель улавливает семантические связи между текстами.

Оценка MMLU-PRO (Multilingual Multimodal Language Understanding - PRO) учитывает многоязычность (способность работать с несколькими языками одновременно, такие модели обучаются на данных из разных языков и могут выполнять задачи обработки естественного языка на разных языках), мультимодальность (могут анализировать и понимать информацию из разных источников: звук, текст, картинка) и способность модели понимать язык, предоставляя профессиональную оценку ее работы. Она помогает определить качество и эффективность моделей в различных языках и с разными типами данных.

Чтобы проверить являются ли оценки сильно связанными друг с другом, построим матрицу парных коэффициентов корреляции по первым 35 позициям лидерборда. Видно, что все коэффициенты кроме одного достаточно малы, чтобы сделать вывод, что все оценки являются важными и независимыми друг от друга

Корреляция между оценками

Бенчмарки для русскоязычных моделей

Русский язык достаточно сильно отличается от языков романской группы, хотя бы потому, что например, английский язык аналитический, а русский - синтетический, и есть специальные бенчмарки для русского языка и для перевода на русский язык. Хорошо про создание бенчмарков написано здесь в статье про MERA — инструктивный бенчмарк для оценки фундаментальных русскоязычных моделей (https://mera.a-ai.ru/ru). Данный проект включает:

● 21 задание в инструктивном формате для оценки различных навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое;
● Тестирование решения этих же задач людьми для сравнения уровня возможностей модели с уровнем возможностей человека (human benchmark);
● Оценку некоторых открытых моделей, бейзлайнов, таких как LLAMA и другие;
● Код на основе открытой библиотеки lm-harness для замеров моделей в едином формате;
● Сайт лидерборда с удобной системой сабмита и рейтингом.

На этом сайте говорится, что в настоящее время отсутствует способ независимого, единого, экспертного сравнения фундаментальных русскоязычных моделей и каждый создатель модели оценивает решение в собственных локальных условиях, на своих метриках, поэтому воспроизводимость результатов как таковая отсутствует.

Оценка BPS (Bits Per Second) показывает, сколько бит информации передается или обрабатывается за одну секунду. При оценке производительности нейронной сети, BPS может помочь определить, насколько быстро модель способна генерировать текст или отвечать на запросы.

CheGeKa - это методика оценки качества больших языковых моделей, которая включает в себя оценка качества модели с помощью человеческих экспертов или тестеров.

Термин LCS (Longest Common Subsequence или Самая длинная общая подпоследовательность). LCS - это метод оценки качества работы модели, который используется для сравнения двух последовательностей символов и определения их сходства. Для языковых моделей LCS может быть использован для сравнения сгенерированной моделью последовательности текста с эталонной последовательностью. Этот метод позволяет оценить, насколько хорошо модель справляется с задачей генерации текста, определяя долю совпадающих символов в последовательностях

MathlogicQA - это набор данных, который используется для оценки качества больших языковых моделей, таких как GPT (Generative Pre-trained Transformer). Этот набор данных предназначен для проверки способности моделей к логическому рассуждению и решению математических задач.

MuitiQ предназначена для измерения качества ответов, которые предоставляются моделью на различные вопросы.Основная идея MuitiQ заключается в том, что она учитывает не только точность ответов модели, но и ее уверенность в ответах. Это позволяет более полноценно оценить работу модели, учитывая не только правильность ответов, но и уверенность модели в своих ответах.

Оценка PARus - метрика предназначена для оценки производительности моделей в задачах, связанных с русским языком. PARus включает в себя несколько ключевых критериев, таких как перевод, способность модели изменять контент и поведение, а также параметр "tokens", определяющий количество слов, которые модель может обрабатывать.

Оценка RCB (Relative Cross-Bandwidth) позволяет оценить, насколько хорошо модель способна работать с различными языками и находить ответы в базе знаний.

Эволюция метрик русскоязычных моделей

Следует заметить, что данный список метрик для современного лидерборда (2024 год) гораздо сильнее похож на список метрик лидерборда HuggingFace, в котором находятся основные большие языковые модели. Лидерборд https://russiansuperglue.com/leaderboard/2, выпущенный три года назад, содержал намного больше метрик, показывающий владение именно русским языком. На мой взгляд, это связано с прорывом в машинном переводе, который произошел за это время. Кстати, эволюция метрик машинного перевода прекрасно описана в серии статей (https://habr.com/ru/articles/745642/ первая статья из серии)

Разница в оценивании LLM-моделей и LLM-систем

Важно различать оценку LLM или LLM-систему (LLM вместе с агентами). Если есть какой нибудь ассистент на основе RAG, то оценивая эту систему, нужно понимать, что важна не только модель, но и контекст, и то, как модель работает с контекстом. То есть оценить систему в совокупности — и подтянутый контекст, и данный ответ. Есть фреймворк RAGAS, в котором для таких реализованы более “умные” метрики на основе сильных моделей.

Есть специальные метрики, которые проверяют склонность модели к галлюцинациям, метрики безопасности модели и метрика memorization. Метрики безопасности модели позволят оценить токсичность, толерантность, устойчивость к попыткам использовать модель во зло. Платформа DecodingTrust поможет это оценить. Метрика memorization отвечает за соблюдение авторских прав.

Заключение

В заключение можно отметить, что существует множество подходов и метрик для оценки больших языковых моделей. Такое разнообразие обусловлено сложностью как самого языка, так и окружающего мира, который необходимо преобразовать в цифровое представление для обработки моделью. По мере выявления новых слабых мест в работе моделей, число метрик будет продолжать расти. Для оценки прогресса в развитии моделей необходимо определить конкретные цели и критерии оценки. При выборе модели следует ориентироваться на решаемую задачу и ожидать от нее качественных ответов, сравнимых с ответами эксперта: точных, полных и грамотных.