Тестирование LLM-помощников с использованием 13 популярных больших языковых моделей

Автор статьи, участник AI-Лаборатории УИИ Спащенко А.

Введение

Современные технологии искусственного интеллекта развиваются стремительными темпами, и одним из наиболее заметных достижений стало появление больших языковых моделей (LLM), таких как GPT-3, GPT-4 и другие. Эти модели способны выполнять широкий спектр задач, от написания текстов и перевода до программирования и научных исследований. Для эффективного тестирования и использования LLM-помощников была выбрана среда Open Web UI. Рассмотрим, почему именно эта платформа была выбрана, как с ней работать и какие преимущества она предлагает.

Обоснование выбора Open Web UI

1. Доступность и простота использования
Одним из ключевых факторов выбора Open Web UI является его доступность и простота использования. Эта платформа предоставляет удобный интерфейс для взаимодействия с LLM, что особенно важно для пользователей, не обладающих глубокими техническими знаниями. Простота установки и настройки позволяет быстро приступить к работе.

2. Поддержка различных моделей
Open Web UI поддерживает интеграцию с различными языковыми моделями, что позволяет тестировать и сравнивать их между собой. Это дает возможность выбрать наиболее подходящую модель для конкретных задач, что особенно важно в условиях быстрого развития технологий и появления новых версий LLM.

3. Гибкость и масштабируемость
Платформа Open Web UI обеспечивает высокую степень гибкости и масштабируемости. Она может быть развернута как на локальных машинах, так и в облачных сервисах, что позволяет адаптировать её под различные потребности и бюджеты. Это делает Open Web UI универсальным инструментом для исследователей, разработчиков и бизнес-пользователей.

4. Поддержка сообществом
Open Web UI имеет активное сообщество пользователей и разработчиков, что обеспечивает постоянное обновление и улучшение платформы. Наличие открытого исходного кода позволяет вносить изменения и доработки, а также получать помощь и советы от других пользователей.

Порядок работы с Open Web UI

1. Установка и настройка

В качестве источника технической документации использовался ресурс GitHub:
https://github.com/open-webui/open-webui

Для начала работы с Open Web UI необходимо установить платформу на своем компьютере или сервере. Процесс установки включает в себя следующие шаги:

Скачивание исходного кода с официального репозитория.
Установка необходимых зависимостей.
Настройка конфигурационных файлов.
Запуск сервера и интерфейса.

После завершения установки, пользователь получает доступ к веб-интерфейсу, через который можно взаимодействовать с языковыми моделями.

2. Загрузка и настройка моделей

После установки Open Web UI, следующим шагом является загрузка и настройка языковых моделей. Платформа поддерживает подключение как предобученных моделей, так и возможность загрузки собственных. Процесс включает в себя:

Выбор и загрузка модели из доступных репозиториев.
Настройка параметров модели, таких как объем памяти, использование GPU и другие.
Запуск модели для взаимодействия через веб-интерфейс.

3. Взаимодействие с моделями

Веб-интерфейс Open Web UI предоставляет удобные инструменты для взаимодействия с языковыми моделями. Пользователи могут вводить текстовые запросы, получать ответы от моделей и проводить анализ их работы. Основные функции интерфейса включают в себя:

Ввод текстовых запросов.
Настройка параметров генерации текста, таких как длина ответа, температура и другие.
Просмотр и анализ результатов работы модели.

Обоснование выбора моделей для тестирования в среде Open Web UI

В ходе исследования различных помощников на основе крупных языковых моделей (LLM) для тестирования в среде Open Web UI были выбраны следующие модели: Llama3:latest8B, Qwen2-0.5B, Gemma2:latest9.2B, Mistral:7.2B, Phi3: 3.8b, Notus, Zephyr:7B, Yi:6B, Nous-hermes:11B, OpenChat:7B. Рассмотрим кратко каждую из этих моделей и обоснуем их выбор для тестирования.

1. Llama3:latest8B

Llama3 представляет собой одну из самых последних версий модели Llama с объемом в 8 миллиардов параметров. Эта модель известна своей высокой производительностью и точностью в обработке естественного языка. Она была выбрана для тестирования благодаря следующим причинам:

Актуальность: Последняя версия модели отражает самые современные достижения в области разработки LLM.
Баланс производительности и размера: 8 миллиардов параметров обеспечивают высокую точность при умеренном использовании ресурсов.

2. Qwen2-0.5B

Qwen2-0.5B - это компактная модель с 500 миллионами параметров. Она была выбрана для тестирования из-за своей компактности и эффективности:

Эффективность: Меньшее количество параметров позволяет модели работать быстрее и использовать меньше ресурсов.
Использование в ограниченных ресурсах: Подходит для внедрения в системы с ограниченными вычислительными мощностями.

3. Gemma2.2B

Gemma2.2B - это одна из самых мощных моделей с 9.2 миллиардами параметров. Эта модель была выбрана по следующим причинам:

Высокая точность: Большое количество параметров обеспечивает высокую точность и глубину анализа.
Широкий спектр задач: Способна решать сложные задачи, требующие глубокой обработки языка.

4. Mistral:7.2B

Mistral:7.2B - модель со средним количеством параметров, оптимальная для разнообразных задач:

Сбалансированность: Оптимальное соотношение размера и производительности.
Универсальность: Подходит для широкого спектра применений от обработки текста до генерации контента.

5. Phi3: 3.8B

Phi3: 3.8B - относительно небольшая модель с 3.8 миллиардами параметров:

Легкость интеграции: Меньший размер модели упрощает её интеграцию в различные системы.
Быстродействие: Меньшее количество параметров обеспечивает более высокую скорость обработки.

6. Notus

Notus - модель, выбранная для тестирования благодаря своим уникальным характеристикам:

Специализация: Возможно, имеет специфические функции или особенности, отличающие её от других моделей.
Инновации: Включение новых технологий или подходов в обработке естественного языка.

7. Zephyr:7B

Zephyr:7B - модель со средним объемом в 7 миллиардов параметров:

Сбалансированность: Хороший баланс между производительностью и размером.
Адаптивность: Подходит для различных типов задач и может быть легко адаптирована под конкретные требования.

8. Yi:6B

Yi:6B - модель с 6 миллиардами параметров, выбранная по следующим причинам:

Компактность и эффективность: Хорошее сочетание размера и производительности.
Применимость: Подходит для использования в различных приложениях и системах.

9. Nous-hermes:11B

Nous-hermes:11B - одна из самых мощных моделей в нашем списке с 11 миллиардами параметров:

Высокая производительность: Обеспечивает высокую точность и эффективность в решении сложных задач.
Передовые технологии: Использует новейшие достижения в области искусственного интеллекта и обработки естественного языка.

10. OpenChat:7B

OpenChat:7B - модель, разработанная специально для общения и обработки диалогов:

Специализация на диалогах: Оптимизирована для работы с диалоговыми системами и чат-ботами.
Качество генерации текста: Обеспечивает высокое качество ответов и взаимодействия с пользователями.

Подготовка базы данных и тестирование моделей

Подготовка базы данных

Для тестирования моделей в среде Open Web UI была подготовлена база данных, состоящая из двух текстов:

1.Текст методики измерений уксусной кислоты:

Технический документ, содержащий подробные инструкции и методики измерения концентрации уксусной кислоты.
Включает теоретические основы, оборудование, реагенты, процедуру проведения измерений, а также интерпретацию результатов.

Тип текста был выбран как пример узкоспециализированного источника, знания моделей о тематике которого весьма ограничены либо отсутствуют.

2.Глава 3 из Гражданского кодекса РФ:

Юридический текст, включающий положения, регулирующие право собственности и иные вещные права.
Описывает основные принципы и нормы гражданского права, касающиеся прав собственности, обязательств и договоров.

Тип текста был выбран как пример широко используемого открытого источника, который с большой вероятностью участвовал в обучении большинства LLM.

Подготовка текста с помощью Docs™ to Markdown

Для подготовки текстов использовалось расширение для Google Docs — Docs™ to Markdown. Этот инструмент позволяет преобразовывать документы Google Docs в формат Markdown, что обеспечивает удобство последующей обработки и загрузки в Open Web UI. Процесс подготовки включал следующие шаги:

Создание и форматирование документов в Google Docs.
Конвертация документов в формат Markdown с помощью расширения Docs™ to Markdown.
Проверка и корректировка полученного текста для соответствия требованиям загрузки в Open Web UI.

Создание помощников и системные промпты

На основе каждой базовой модели в Open Web UI создавался помощник, который использовался для тестирования. Для каждого помощника были заданы следующие параметры:

1.Системный промпт: Специальная команда или набор инструкций, определяющих начальные условия и контекст работы модели. Системный промпт помогал настроить модель на выполнение конкретных задач и обеспечивал согласованность ответов.

2.База данных: Предварительно загруженные тексты методики измерений уксусной кислоты и главы 3 из Гражданского кодекса РФ.

Процесс тестирования

Тестирование проводилось в одинаковых условиях для всех моделей, чтобы обеспечить объективное сравнение их возможностей и эффективности. Основные этапы тестирования включали:

1.Загрузка базы данных:

Загруженные тексты были интегрированы в рабочую среду Open Web UI.
Проверка корректности загрузки и доступности текстов для моделей.

2.Настройка помощников:

Каждой модели был назначен системный промпт, определяющий контекст и задачи для выполнения.
Все тонкие настройки использовались в значениях по умолчанию, чтобы исключить влияние дополнительных параметров на результаты.

3.Проведение тестов:

Для каждой модели проводились серии запросов, направленных на проверку понимания и обработки информации из загруженной базы данных.
Оценивалась точность и релевантность ответов.

Результаты тестирования

Результаты тестирования моделей позволили оценить их возможности и эффективность при работе с различными типами текстов — техническими и юридическими документами.

Вывод

Подготовка базы данных и создание помощников на основе различных моделей в Open Web UI позволили провести всестороннее тестирование и сравнение их возможностей. Следует отметить, что на ответы моделей существенным образом влияют параметры:

Структура текста: Линейные тексты (например, статьи) могут содержать развернутую информацию и контекст, что может помогать модели лучше понять и обрабатывать запросы. Табличные данные и маркеры могут обеспечить структуру, но могут ограничить возможности модели в понимании контекста.
Язык и стиль: Официальный или технический язык может требовать специализированных знаний и понятий, что влияет на точность ответов. Простой или разговорный язык может быть легче для обработки, но терять специфичность.
Объем данных: Больше данных позволяют модели обучиться на разнообразных примерах, что может повысить гибкость и точность ответов. Маленький объем данных ограничивает возможности обучения модели.
Тематика текста: Специфические темы и термины из определенных областей (медицина, технология, право и т.д.) могут требовать специализированных моделей или мультимодальных подходов.

Использование одинаковых условий для всех моделей обеспечило объективность и надежность полученных результатов. Данная методика тестирования может быть полезной для исследователей и разработчиков, занимающихся оценкой и выбором языковых моделей для различных приложений.

Использование моделей ChatGPT-4o, GigaChat и YaGPT

В дополнение к тестированию моделей в среде Open Web UI, для исследования возможностей и эффективности языковых моделей также использовались ChatGPT-4o компании OpenAI, GigaChat компании Сбера и YaGPT компании Яндекс. Эти модели были интегрированы и протестированы с использованием API, предоставленных разработчиками, что позволило расширить анализ и сравнить их с моделями, используемыми в Open Web UI.

Обоснование выбора моделей

ChatGPT-4o (OpenAI): Одна из самых современных и мощных моделей на базе GPT-4, известная своей высокой точностью и широким спектром применений.
GigaChat (Сбер): Модель, разработанная российской компанией Сбер, ориентирована на высокую производительность и адаптирована для работы с русским языком.
YaGPT (Яндекс): Модель, разработанная компанией Яндекс, отличается своими уникальными алгоритмами и оптимизацией для работы с большими объемами данных на русском языке.

Подготовка базы данных

Для тестирования этих моделей использовались те же базы данных, что и для моделей в Open Web UI:

Текст методики измерений уксусной кислоты: Технический документ с детальными инструкциями по измерению концентрации уксусной кислоты.
Глава 3 из Гражданского кодекса РФ: Юридический текст, регулирующий право собственности и иные вещные права.

Разработка и тестирование в Google Colab

Для интеграции и тестирования моделей ChatGPT-4o, GigaChat и YaGPT использовалась среда разработки Google Colab. Этот инструмент предоставляет доступ к мощным вычислительным ресурсам и удобную среду для разработки и выполнения кода.

Шаги по интеграции и тестированию:

1.Интеграция через API:

Обращение к языковым моделям осуществлялось через API, предоставленные разработчиками.
Настройка API ключей и конфигурация запросов в соответствии с технической документацией.

2.Дообучение моделей:

Модели дообучались на предварительно подготовленных базах данных, чтобы улучшить их точность и релевантность ответов.

3.Создание помощников:

Для каждой модели создавались помощники, аналогичные тем, что использовались в Open Web UI.
Задание системных промптов и настройка баз данных для каждой модели.

4.Тестирование:

Проведение тестирования в одинаковых условиях, как и в среде Open Web UI.
Оценка точности моделей на основе заданных вопросов и сценариев.

Вывод

Тестирование моделей ChatGPT-4o, GigaChat и YaGPT с использованием Google Colab и API разработчиков позволило провести всесторонний анализ их возможностей и эффективности. Полученные результаты сравнивались с моделями, тестируемыми в среде Open Web UI, что обеспечило комплексный подход к оценке языковых моделей. Использование одинаковых настроек и условий тестирования позволило объективно сравнить модели и сделать выводы о их применимости для различных задач и сценариев.

Оценка результатов тестирования

Оценка точности ответа производилась вручную по 5 бальной системе в сравнении с эталонным ответом. Оценка 0 - если модель не смогла найти ответ в базе данных, оценка 1,2,3 выставлялась, если ответ был приближен к эталонному, оценка 4- если модель точно соответствовала эталонному, оценка 5 - если модель смогла дать ответ включающий эталонный и полезную дополнительную информацию из базы данных. В этом разделе мы рассмотрим результаты тестирования каждой модели и проведем анализ их производительности.

Оценки точности ответов

Ниже представлена таблица с результатами тестирования моделей:

Вопрос 1: Укажи ТУ на бумагу индикаторную универсальную

Вопрос 2: Укажи интервал измерений концентрации уксусной кислоты

Вопрос 3: Укажи молекулярную массу полиэтиленгликоля, приведенную в методе измерений

Вопрос 4: Какое место признается местом жительства гражданина?

Вопрос 5: Для каких целей устанавливаются
опека и попечительство над несовершеннолетними?

Вопрос 6: При каких условиях над совершеннолетним дееспособным гражданином устанавливается патронаж?

Анализ результатов

Средние оценки моделей

Для более детального анализа рассчитаем средние оценки каждой модели:

Рейтинг моделей

На основе средних оценок можно составить рейтинг моделей:

GigaChat (4.17)
ChatGPT (4.00)
Qwen2-0.5B (3.67)
Gemma2 (3.67)
Mistral:7.2B (3.67)
YaGPT (3.33)
Llama3 (3.00)
Zephyr:7B (3.00)
Yi:6B (3.00)
OpenChat:7B (3.00)
Notus (2.83)
Nous-hermes:11B (2.83)
Phi3: 3.8B (2.33)

Обсуждение

Высокопроизводительные модели

Модели GigaChat и ChatGPT продемонстрировали наивысшие средние оценки, что свидетельствует об их способности не только находить релевантные ответы, но и предоставлять дополнительные полезные сведения. Это делает их особенно ценными для задач, требующих глубокой аналитики и комплексных ответов.

Среднеуровневые модели

Модели Qwen2-0.5B, Gemma2 и Mistral:7.2B также показали хорошие результаты, с средними оценками около 3.67. Эти модели продемонстрировали сбалансированное соотношение между точностью и способностью находить ответы в базе данных.

Модели со средней и низкой производительностью

Модели Phi3: 3.8B, Notus, и Nous-hermes:11B показали наименьшие средние оценки. Это может свидетельствовать о необходимости дообучения этих моделей на более специализированных данных или улучшения их алгоритмов для повышения точности ответов.

Заключение

Результаты тестирования показали значительные различия в производительности различных языковых моделей. GigaChat и ChatGPT оказались наиболее эффективными, демонстрируя высокую точность и полезность ответов. Эти результаты могут быть полезны для выбора наиболее подходящей модели в зависимости от конкретных задач и требований.

Тестирование Менеджера по продажам смартфонов

Промпт для моделей

Для каждой языковой модели создавался промпт, предназначенный для симуляции диалога менеджера по продажам смартфонов. Промпт был разработан с целью убедить клиента сделать заказ, состоящий из семи этапов. Тестирование проводилось с оценкой качества ответов менеджера и их сравнением с эталонным диалогом.

Промпт Менеджера по продажам

Ты работаешь в компании “Смартфоны от Samsung” менеджером по продажам смартфонов. Твое имя Михаил. Твоя задача – убедить клиента сделать заказ. Для этого ты проводишь диалог с клиентом, состоящий из семи этапов. Вот этапы диалога:

Этап 1: Приветствие

Напиши приветствие:
Здравствуйте! Меня зовут Михаил. Рад приветствовать вас в нашем магазине смартфонов Samsung.

Спроси, для каких целей планируется использовать смартфон:
Чтобы помочь вам выбрать смартфон, который наилучшим образом соответствует вашим потребностям, расскажите, пожалуйста, как вы планируете использовать устройство? Вам важна высокая производительность для игр и многозадачности, или вас больше интересуют базовые функции и экономия заряда батареи?

Этап 2: Определение необходимого объема памяти для хранения данных

Спроси, какой объем памяти для хранения данных смартфона предпочтителен клиенту:
Отлично, это помогает понять ваши потребности. Теперь давайте поговорим о памяти. Сколько постоянной памяти вам потребуется? Например, для хранения большого количества приложений, фотографий и видео. Наши модели предлагают варианты от 64 ГБ до 512 ГБ.

Этап 3: Определение необходимого объема оперативной памяти

Спроси, какой объем оперативной памяти смартфона предпочтителен клиенту:
Также, сколько оперативной памяти, по вашему мнению, вам потребуется для комфортной работы? В наших моделях есть варианты от 4 ГБ до 12 ГБ оперативной памяти, что позволяет выполнять различные задачи без задержек.

Этап 4: Выбор размера экрана

Спроси, какой размер экрана интересен клиенту:
Прекрасно, мы почти закончили. Давайте обсудим экран вашего будущего смартфона. Какой размер экрана вам предпочтителен? У нас есть модели с диагональю от 5.8 до 6.9 дюймов.

Этап 5: Выбор характеристик экрана

Спроси, какие характеристики экрана интересны клиенту:
И последний вопрос: важна ли для вас высокая частота обновления экрана? Например, для плавного отображения видео и игр. У нас есть варианты с частотой от 60 до 120 Гц.

Этап 6: Предложение линейки и получение контактной информации

Спроси контакты клиента для предоставления более детального предложения:
Спасибо за информацию! Исходя из ваших предпочтений, я могу предложить вам несколько моделей из нашей линейки смартфонов Samsung. Для того, чтобы я мог подготовить для вас детальную информацию о ценах и специальных предложениях, не могли бы вы оставить свои контактные данные? Ваше имя, номер телефона и адрес электронной почты будут достаточны.

Этап 7: Поблагодарить клиента за интерес

Поблагодари клиента за интерес:
Большое спасибо за ваш интерес к продукции Samsung. Мы свяжемся с вами в ближайшее время с предложениями, которые наилучшим образом соответствуют вашим требованиям.

Процесс тестирования

Для каждой модели создавался помощник с вышеописанным промптом. Качество ответов менеджера оценивалось по трём критериям:

1.Приветствие и вводный вопрос: Оценивалось, насколько точно и вежливо модель выполняла приветствие и задавала вводный вопрос о целях использования смартфона.

2.Технические вопросы: Оценивалось, насколько полно и корректно модель задавала вопросы о предпочтениях клиента по объему памяти, оперативной памяти и размеру экрана.

3.Заключительные вопросы: Оценивалось, насколько точно модель выполняла заключительные этапы диалога, включая запрос контактной информации и благодарность за интерес.

Результаты тестирования

Результаты тестирования оценивались по 5-бальной системе, где 0 означает, что модель не смогла корректно выполнить этап диалога, а 5 — что модель выполнила этап идеально, включая все требуемые детали и дополнительные полезные вопросы. Таблица с результатами тестирования:

Анализ результатов

Средние оценки моделей

Для более детального анализа рассчитаем средние оценки каждой модели по всем критериям:

Рейтинг моделей

На основе средних оценок можно составить рейтинг моделей:

Gemma2 (5.00)
ChatGPT (5.00)
GigaChat (5.00)
Nous-hermes:11B (4.67)
Llama3 (4.00)
Mistral:7.2B (4.00)
OpenChat:7B (4.00)
YaGPT (4.00)
Zephyr:7B (3.67)
Qwen2-0.5B (3.33)
Yi:6B (3.00)
Notus (2.67)
Phi3: 3.8B (2.33)

Выводы

Тестирование моделей Менеджера по продажам смартфонов показало значительные различия в их производительности. Gemma2, ChatGPT, и GigaChat продемонстрировали наивысшие средние оценки, что свидетельствует об их высокой точности и полезности при симуляции диалога с клиентом. Эти результаты могут быть полезны для выбора наиболее подходящей модели в зависимости от конкретных задач и требований.

Заключение

Тестирование и использование LLM-помощников с помощью Open Web UI предоставляет широкие возможности для пользователей различных категорий. Простота установки и настройки, поддержка различных моделей, гибкость и масштабируемость, а также активное сообщество делают эту платформу идеальным выбором для работы с большими языковыми моделями. Внедрение Open Web UI в рабочие процессы позволяет значительно повысить эффективность и качество работы с LLM, открывая новые горизонты для исследований и разработки инновационных решений.

Выбор моделей для тестирования в среде Open Web UI был осуществлен на основе различных критериев, таких как размер модели, производительность, применимость к различным задачам и актуальность технологий. Каждая из выбранных моделей обладает уникальными характеристиками, которые позволяют проводить всестороннее и детальное тестирование, а также сравнение их возможностей и эффективности. Такой подход обеспечивает комплексный анализ и помогает выбрать оптимальную модель для конкретных нужд и задач.