Тестирование качества и скорости ответа LLM в зависимости от специфичности системного промпта.

Авторы статьи: Шаров Михаил, Кожевников Владимир, Еклашева Ольга

Введение

Технологический контекст
С развитием искусственного интеллекта (ИИ) языковые модели (Large Language Models, LLMs) стали ключевым инструментом для множества приложений, от обработки естественного языка до сложных RAG (Retrieval Augmented Generation) систем . Эти модели обучаются на огромных наборах данных и могут понимать и генерировать текст на естественном языке, что позволяет им выполнять широкий спектр задач, включая перевод, резюмирование, написание статей и многие другие. Однако качество их ответов сильно зависит не только от формулировки входных запросов пользователя, но и во многом от системных промптов - инструкций для модели, использующихся для дообучения LLM по конкретной тематике.

Проблематика
Тестирование и оценка качества ответов LLM а также скорости ответов в зависимости от специфичности системного промпта является критически важной задачей для промпт инженера. Промпты могут быть общими или специфичными, степень их
детализации и структура может значительно влиять на качество и релевантность генерируемых ответов. Скорость ответа модели также является важным критерием, от которого зависит удовлетворенность работой различных ИИ ассистентов.

Исследование
В этом исследовании перед нами стояла задача оценить как вид, длина и структура системного промпта влияет на качество и скорость ответа модели. Для решения данной задачи мы решили написать ИИ ассистента для научного сотрудника. В качестве базы знаний для RAG системы была выбрана и подготовлена узкоспециализированная научная область. такой выбор был обоснован двумя причинами:
  • Чистота оценки работы модели. Так как выбранная область знаний является сложно доступной и все выбранные модели не имеют собственных фундаментальных знаний в этой области и вынуждены ориентироваться исключительно на предоставленную им базу знаний, то это уравнивает их в вопросах осведомленности и позволяет выявить отличия в их способностях к пониманию текста и извлечению необходимой информации из него.
  • В рамках нашей группы работает высокоуровневый ученый - эксперт в этой, что позволяет оценить ответы моделей с помощью человеческой экспертизы.

Методология
Для проведения экспериментов были использованы различные виды системных промптов, различающиеся по уровню и специфичности. Был сформирован набор, где системный промпт для одного и того же ИИ агента был сформирован с помощью следующих техник:

  • Zero-Shot Prompting. Предполагают отсутствие примеров в запросе. Модель должна самостоятельно понять задачу и сгенерировать соответствующий ответ.
  • Few-Shot Prompting. Промпт включает несколько примеров решения задачи, что помогает модели лучше понять контекст и требования.
  • Chain-of-Thought Prompting. Модель обрабатывает задачу пошагово, следуя логической цепочке рассуждений, поданной в системном промпте.
  • Role Prompting. Модель принимает на себя определенную роль, что позволяет адаптировать стиль и тон ответа.
  • Instruction Prompting. Промпт содержит четкие и детализированные инструкции, которые модель должна выполнить.
Подробнее об этих видах промптов и их использовании можно узнать из нашей статьи “Системные промпты: полный гайд по видам и использованию”.

Методы оценки

Для оценки мы создали тестовый вопрос пользователя - “ Что такое суперкумуляция в кумулятивных зарядах и за счет чего она достигается?” Экспертом был составлен “идеальный” ответ, который мы хотели бы получить от модели. Он выглядит следующим образом:

“Суперкумуляция в кумулятивных зарядах – это процесс достижения синергетического эффекта увеличения пробивного действия кумулятивной струи, за счет одновременного сочетания нескольких факторов:

1) формы и энергии детонационной волны в зарядах с инертными линзами, комбинированных или градиентных по плотности или составу (для смесевых взрывчатых веществ), обжимающей кумулятивную облицовку;
2) формы, состава и структуры самой кумулятивной облицовки:
- гомогенной, состоящей из материала высокой плотности (например, из обедненного урана);
- сложной формы (звездчатообразной, составной из частей с различным углом конусности, облицовок с непрерывно изменяемым углом раствора);
- многослойной для облицовки, состоящей из слоев различных материалов (с целью оптимизации процесса передачи энергии детонационной волны заряда ударной волне самой кумулятивной облицовки для максимизации массовой скорости материала внутреннего ее внутреннего слоя, из которого и формируется кумулятивная струя);
- градиентной по плотности и составу (для облицовки спрессованной по определенной технологии из гомогенных или смесевых порошков с целью достижения аналогичного эффекта кумулятивной струи);
3) применения различных по форме, толщине и материалу внешних оболочек кумулятивного заряда с целью дополнительного усилений энергии детонационной волны за счет ее отражения от внешней оболочки.”

С этим эталонным ответом производилось сравнение ответов моделей, которые в итоге оценивались по следующим критериям:

Ответы языковых моделей оценивались по нескольким основным критериям:
  1. Точность и достоверность: Соответствие фактической информации и отсутствие ошибок. Корректное использование терминов и понятий.
  2. Полнота: Насколько полно ответ охватывает заданный вопрос. Наличие всех необходимых деталей и аспектов.
  3. Релевантность: Насколько ответ соответствует запросу пользователя. Отсутствие ненужной или несвязанной информации.
  4. Понятность: Ясность изложения и структурированность ответа. Логичное построение текста, отсутствие двусмысленности.
  5. Когерентность: Связность и логичность внутри одного ответа. Соответствие информации в разных частях ответа.
  6. Этика и безопасность: Соблюдение норм этики, отсутствие дискриминационных или оскорбительных высказываний. Отсутствие информации, которая может причинить вред.
  7. Эффективность: Способность дать полезный и целесообразный совет или решение проблемы.
Следует отметить, что эти критерии используются для оценки как автоматическими средствами, так и вручную экспертами.

Оценка проводилась двумя способами:
  • Оценка LLM полученных ответов моделей путем сравнения с эталонным ответом.
  • Оценка ответов модели экспертом.

В работе мы использовали следующие модели: GPT 4o, GPT 4o-mini, Gemini 1.5 Pro

Результаты оценки влияния структуры и вида промпта на качество ответа моделей:

Для тестов использовались следующие промпты:

Zero-Shot Prompting: Ты AI консультант для инженеров и ученых, работающих в области суперкумуляции. Твоя задача — предоставлять точные и детализированные ответы на вопросы, связанные с исследованиями, разработками и применением технологий суперкумуляции. Пожалуйста, предоставь наиболее точную и полную информацию по запросу, используя базу знаний и любой релевантный материал, доступный в системе.

Few-Shot Prompting: Ты AI консультант, специализирующийся на исследованиях суперкумуляции. Ниже приведены примеры того, как ты должен отвечать на вопросы:
1. Вопрос: Какова роль инертных линз в процессе суперкумуляции?
Ответ: Инертные линзы используются для регулирования формы и энергии детонационной волны, что позволяет оптимизировать воздействие на кумулятивную облицовку и увеличить эффективность кумулятивной струи.
2. Вопрос: Какие материалы лучше всего подходят для многослойных облицовок?
Ответ: Многослойные облицовки обычно состоят из комбинации материалов с различной плотностью и составом, таких как медь для внутреннего слоя и менее плотный материал, например, алюминий для внешнего слоя.
Исходя из этих примеров, предоставь подробный ответ на следующий вопрос.

Chain-of-Thought Prompting: Ты AI консультант, способный пошагово анализировать сложные задачи, связанные с суперкумуляции. Когда тебе задают вопрос, сначала определяй ключевые элементы задачи, затем анализируй каждый аспект по отдельности, и наконец, объединяй результаты для предоставления полного и детализированного ответа. Например, если тебя спросят о механизмах повышения пробивной способности кумулятивной струи, начни с описания детонационной волны, затем перейди к облицовке, и завершай описание обсуждением материалов

Role Prompting: Ты — ведущий инженер-исследователь в области суперкумуляции, твоя задача — консультировать коллег по вопросам, связанным с разработкой и применением технологий суперкумуляции. Поддерживай профессиональный тон, давай рекомендации на основе последних научных исследований и используй специализированную терминологию, принятую в области. Отвечай на вопросы так, как если бы ты был экспертом с многолетним опытом в данной области

Instruction Prompting: Ты AI консультант, и твоя задача — строго следовать инструкциям при ответе на вопросы инженеров и ученых отдела суперкумуляции. Если в вопросе содержится просьба о детальном объяснении или расчете, предоставь пошаговую инструкцию, включая все необходимые формулы, материалы и методы. Если требуется обзор или сводка, приведи ключевые моменты и основную информацию по теме. Каждый ответ должен быть структурированным, логичным и максимально полным


Модель: GPT-4o

На рисунке соотнесены средние арифметические оценок по всем показателям эксперта и LLM по различным типам промтов для модели GPT-4o. Видно, что средняя оценка эксперта стабильно ниже, чем оценка LLM, причем расхождения между оценками эксперта и LLM немного увеличиваются с усложнением типа промта, но драматичных расхождений нет. И для этой модели эксперт дал ответам модели самые высокие оценки. Получается, что качество ответов по всем промптам для GPT-4o саме высокое.

Модель: GPT-4o-mini

На рисунке показаны средние арифметические оценок по всем показателям эксперта и LLM по различным типам промтов для модели GPT-4o-mini. Здесь уже видны драматичные расхождений между оценками эксперта и модели для Chain-of-Thought prompting и Role prompting. По мнению эксперта модель GPT-4o-mini не справилась с ситуацией “представь, что ты специалист в некоторой узкой области”.

Модель: Gemini 1.5 Pro

На рисунке представлены средние арифметические оценок по всем показателям эксперта и LLM по различным типам промтов для модели Gemini 1.5 Pro. Видно, что средняя оценка эксперта стабильно ниже, чем оценка LLM, причем расхождения между оценками эксперта и LLM существенно увеличиваются с усложнением типа промта, и сильно расходится на сложных промтам.
Выводы
Анализируя полученные результаты оценки ответов языковых моделей в зависимости от вида системного промпта, можно выделить несколько ключевых выводов. Во-первых, LLM систематически завышает оценки, особенно по сравнению с экспертными, что указывает на необходимость калибровки модели при оценке своих ответов. Во-вторых, в нашей конкретной задаче с учетом вопроса пользователя и с учетом структуры и содержания эталонного ответа, Zero-Shot Prompting стабильно показал лучшие результаты по точности и полноте, Chain-of-Thought и Role Prompting, напротив, показали худшие результаты, особенно по критериям согласованности и точности, что указывает на их меньшую надежность в сложных сценариях. Для всех моделей наблюдается стабильное соответствие по этике и безопасности, что свидетельствует о хорошем уровне соблюдения норм. Однако, Gemini 1.5 Pro и GPT-4o-mini показали значительно худшие результаты по критериям полноты и релевантности. Промпты Few-Shot и Instruction Prompting, показывают неустойчивые результаты по различным критериям. Для повышения общей эффективности системных промптов необходимо учитывать результаты экспертов и пересматривать внутренние оценочные модели LLM. В целом, исследования подчеркивают важность тщательного выбора типа промпта в зависимости от задачи, а также необходимость подбора моделей для обеспечения согласованности и точности ответов для каждой конкретной задачи.

Результаты оценки влияния структуры и вида промпта на скорость ответа моделей

Оценочная таблица скорости

Анализируя результаты оценки времени ответа моделей на различные типы промптов, можно сделать следующие выводы:

Выводы

GPT-4o

  • Скорость: У модели заметные колебания скорости в зависимости от типа промпта. Самое медленное время отклика наблюдается при сложных промптах, таких как Zero-Shot и Chain-of-Thought (22,758 сек и 22,492 сек соответственно). Однако время отклика значительно улучшается при Instruction Prompting (7,437 сек).
  • Качество: Предполагается, что большее время отклика связано с более глубокой обработкой и высоким качеством анализа, особенно в сложных сценариях. Сложные промпты, такие как Zero-Shot и Chain-of-Thought, требуют детального подхода, что и объясняет увеличение времени.

GPT-4o-mini

  • Скорость: Эта модель показывает наименьшее время отклика на всех типах промптов, что свидетельствует о высокой эффективности обработки запросов. Скорость варьируется от 5,206 сек (Role Prompting) до 9,834 сек (Chain-of-Thought Prompting).
  • Качество: Быстрота модели предполагает, что она может быть более оптимизирована для скорости, возможно, в ущерб детализации в сложных аналитических задачах. Тем не менее, она остается предпочтительной для задач, требующих оперативного ответа, даже на сложные промпты.

Gemini 1.5 Pro

  • Скорость: Время отклика этой модели стабильно среднее по сравнению с другими моделями, варьируется от 12,9 сек (Instruction Prompting) до 19,7 сек (Chain-of-Thought Prompting). Она уступает GPT-4o-mini в скорости, но опережает GPT-4o в некоторых сценариях.
  • Качество: Среднее время отклика и сбалансированная производительность указывают на то, что модель может справляться с широким спектром задач, обеспечивая приемлемое качество и глубину анализа. Тем не менее, на более сложных промптах, таких как Chain-of-Thought, модель замедляется, а также теряет в качестве.

Выводы о влиянии промпта на скорость и качество ответа модели

  • Влияние типа промпта на скорость: Самые сложные промпты, такие как Zero-Shot и Chain-of-Thought, приводят к значительному увеличению времени отклика у всех моделей, особенно у GPT-4o. Это связано с необходимостью более глубокого анализа и структурирования ответа.
  • Влияние типа промпта на качество: В целом, более сложные промпты, требующие многошагового анализа или генерации контекста с нуля, могут снижать скорость, но, для определенных типов задач могут повышать качество ответа за счет более тщательной обработки данных. Для моделей, таких как GPT-4o и Gemini 1.5 Pro, это особенно заметно.
  • Баланс между скоростью и качеством: GPT-4o-mini демонстрирует наилучший баланс между скоростью и качеством для простых и средне сложных задач. Для задач, требующих глубокого анализа, лучше использовать GPT-4o которая может обеспечить более детализированные и качественные ответы, но с увеличением времени отклика. Модель Gemini 1.5 Pro показывает среднюю скорость ответа и высокую степень зависимости качества ответа от структуры системного промпта, поэтому релевантность ее применения сильно зависит от задачи.

Таким образом, выбор модели и подхода к формированию промпта должен основываться на конкретных требованиях задачи: если важна скорость — предпочтительна GPT-4o-mini, если важна глубина анализа — лучше рассмотреть GPT-4o или Gemini 1.5 Pro. Часто для того чтобы добиться наилучшего качества ответа от ИИ ассистента одного из подходов бывает недостаточно и в таких случаях мы можем комбинировать различные подходы к созданию оптимального системного промпта. Однако необходимо учитывать, что такой промпт ожидаемо имеет большую длину и структуру, и соответственно изменится также и время ответа модели.

Made on
Tilda