Нейросети нового поколения: трансформеры и KAN

Автор статьи, участник AI-Лаборатории УИИ Спащенко А.

В мире искусственного интеллекта одной из ключевых теорем, лежащих в основе построения нейронных сетей, является теорема представления Колмогорова–Арнольда. Эта теорема, разработанная в 1957 году советским математиком Андреем Колмогоровым и его учеником Владимиром Арнольдом, стала фундаментом для создания и развития многослойных нейронных сетей.

Андрей Колмогоров и Владимир Арнольд: биографии и достижения

Андрей Николаевич Колмогоров (1903-1987)
Выдающийся советский математик, один из основоположников современной теории вероятностей и математической статистики. Родился в Тамбове, но большую часть жизни провел в Москве. Колмогоров проявил неординарные способности к математике с раннего возраста и уже в молодости начал свою научную карьеру. Его работы охватывают широкий спектр математических дисциплин, включая топологию, функциональный анализ и теорию динамических систем. Характер Колмогорова отличался широтой взглядов и невероятной интеллектуальной энергией. Он был известен как человек, увлеченный многими аспектами культуры и науки, включая историю и литературу.

Владимир Игоревич Арнольд (1937-2010)
Один из самых известных учеников Колмогорова. Арнольд родился в Одессе и уже с детства проявлял необычные способности к математике. С Колмогоровым его связывали не только научные интересы, но и глубокое личное уважение. Арнольд сделал выдающиеся вклады в теорию катастроф, теорию динамических систем и симплектическую геометрию. Характер Арнольда отличался независимостью и смелостью в научных поисках. Он был известен как блестящий педагог, способный вдохновлять и увлекать студентов.

Теорема представления Колмогорова-Арнольда в нейронных сетях

Теорема представления Колмогорова–Арнольда была впервые применена в контексте нейронных сетей в работе, опубликованной в 1989 году авторами которой были Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс. Эта работа, названная "Learning representations by back-propagating errors" ("Обучение представлениям с помощью обратного распространения ошибок"), представила новый метод обучения многослойных нейронных сетей, известный как обратное распространение ошибок.

В своей работе авторы продемонстрировали, как теорема представления Колмогорова–Арнольда может быть использована для создания глубоких нейронных сетей, способных эффективно обучаться сложным зависимостям в данных. В отличие от более традиционных подходов к построению нейронных сетей, основанных на простых линейных моделях или неглубоких архитектурах, теорема представления Колмогорова–Арнольда предлагает более гибкий и мощный способ моделирования сложных функций.

Современные исследователи и теорема Колмогорова–Арнольда

Современные исследователи, такие как Ян ЛеКун, Йошуа Бенджио и Джефф Дин, активно применяли теорему представления Колмогорова–Арнольда в своих работах. Они внесли значительный вклад в развитие глубокого обучения и нейронных сетей, что позволило создать более мощные и эффективные алгоритмы машинного обучения.

Возрождение интереса к теореме Колмогорова–Арнольда

Несмотря на свою фундаментальность и мощь, теорема долгое время не активно использовалась в практике создания нейронных сетей по нескольким причинам:

Сложность конструкции: Теоретическая возможность разложения любой функции с помощью данной теоремы сопровождается значительными вычислительными сложностями на практике. Конструкции, предложенные Колмогоровым и Арнольдом, оказываются сложными с точки зрения реализации и требуют значительных ресурсов, что ограничивает их применение в реальных задачах.
Альтернативные методы: В середине и конце XX века, когда нейронные сети начали активно развиваться, были предложены более простые и эффективные методы построения и обучения сетей, такие как многослойные перцептроны и обратное распространение ошибки. Эти методы оказались более практичными и легче поддавались реализации и обучению на существующих аппаратных ресурсах.

Почему сейчас появилась возможность использования сети KAN

Современные вычислительные ресурсы, включая графические процессоры (GPU) и специализированные аппаратные средства для искусственного интеллекта (AI), значительно превосходят возможности, доступные в середине 20-го века. Эти улучшения позволяют эффективно обучать и использовать сложные модели, такие как KAN.

Прогресс в алгоритмах обучения, включая оптимизационные методы и методы обратного распространения ошибки, сделал возможным более эффективное и быстрое обучение сложных сетей. Эти алгоритмы позволяют реализовать и использовать потенциал KAN на практике.

Интерес к интерпретируемости моделей: в последние годы усилился интерес к интерпретируемости моделей искусственного интеллекта. Интерпретируемость нейронных сетей относится к способности объяснять или обосновывать поведение модели и её решения в понятных для человека терминах. Это значит, что можно понять, почему сеть приняла конкретное решение или сделала определённый прогноз, рассматривая внутренние процессы и представления, которые использует модель. Интерпретируемость сетей является важным аспектом развития и применения искусственного интеллекта, обеспечивая доверие, выявление ошибок, научные открытия и улучшение моделей. KAN способствует интерпретируемости благодаря своей обучаемой структуре активационных функций, математической обоснованности, меньшему количеству параметров и гибкости в адаптации к данным.

Чего возможно достичь при использовании подхода Колмогорова–Арнольда

Задачей настоящего исследования является сравнение общепринятых подходов к формированию нейросетей и нейросети КАН. Определение возможности сокращения времени исследования, повышения точности прогнозирования на малых базах данных, а так снижение трудоемкости формирования модели при использовании нейросети КАН.

Анализ результатов моделирования данных с использованием нейросетей трансформера и KAN

Прогнозирование конечных свойств новых смесевых материалов является актуальной задачей. Применение моделей на основе нейросетей позволяет существенно сократить время на получение образцов с нужными свойствами, оптимизировать трудозатраты на проведение лабораторных тестов, а также пополнить базу данных материалов возможными новыми характеристиками.

В качестве базы данных воспользовались ресурсом kaggle.com

Исходные данные о свойствах композитных материалов (набор X_bp) содержат:

Соотношение матрица-наполнитель.
Плотность, кг/м3.
Модуль упругости, ГПа.
Количество отвердителя, млн.%.
Содержание эпоксидных, групп, %.
Температура вспышки, С_2.
Поверхностная плотность, г/м2
Модуль упругости при растяжении, ГПа
Предел прочности при растяжении, МПа
Расход смолы, г/м2

Исследование включает сравнение двух подходов к регрессии: использования нейросети трансформера и нейросети KAN (Knowledge-Aided Neural network).
Создание и оптимизация нейросети трансформера выполнялась на основе интернет изданий, таких как https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture) с использованием GPT-4.
Код модели выглядит следующим образом:

В качестве общедоступного источника документации и примеров для создания модели нейросети KAN воспользовались ресурсом GitHub : https://github.com/KindXiaoming/pykan/

Код модели выглядит следующим образом:

Рассмотрим результаты и оценим эффективность каждой модели.

Результаты нейросети трансформера

Показатель Loss для модели нейросети трансформера составляет: 0.0310
Общее время обучения модели: 17.47 секунд

Таблица 1 - Сравнение предсказанных и актуальных значений

Результаты нейросети KAN

Показатель Loss для модели нейросети KAN составляет: 0.0176
Общее время обучения модели: 2.49 секунд

Таблица 2 - Сравнение предсказанных и актуальных значений нейросети KAN

Сравнение и обсуждение результатов

Точность моделей
Обе модели показывают хорошие результаты с низкими значениями Test Loss. При этом нейросеть KAN трансформера демонстрирует более низкий Test Loss (0.0176) по сравнению с трансформера (0.0310), что указывает на преимущество в точности модели KAN.

Время обучения моделей
Общее время обучения модели KAN существенно меньше времени нейросеть KAN трансформера. Применение подхода Колмогорова–Арнольда дает существенное преимущество.

Эффективность предсказаний

1. Нейросеть трансформера:

Постепенное снижение Loss в процессе обучения, достигнув стабильного значения около 0.0310 на последних эпохах.
Точные предсказания, близкие к актуальным значениям, особенно в начальных и средних значениях ряда.

2. Нейросеть KAN:

Стабильное значение Test Loss (0.0176) свидетельствует о хорошей общей производительности модели.
Примерные предсказания ближе к актуальным значениям чем для нейросети трансформера с небольшими отклонениями в разных диапазонах данных.

Требования к системным ресурсам

Оптимальные системные требования для работы нейросетей трансформера и KAN зависят от конкретных задач, объема данных и сложности моделей. Вот общие рекомендации для обеих сетей:

1. Нейросеть трансформера:
Трансформеры требуют значительных вычислительных ресурсов, особенно при работе с большими данными и сложными моделями.

Системные требования:

Процессор (CPU): многоядерный процессор с высокой тактовой частотой (например, Intel i7/i9 или AMD Ryzen 7/9).
Графический процессор (GPU): важен для ускорения обучения. Рекомендуется использовать NVIDIA GPU с архитектурой CUDA (например, NVIDIA RTX 3080/3090, A100).
Оперативная память (RAM):о 32 GB и выше, особенно при работе с большими моделями и объемами данных.
Хранилище: Быстрый SSD с достаточным объемом для хранения данных и моделей (минимум 1 TB).

2. Нейросеть KAN:
KAN обычно менее ресурсоемкая по сравнению с трансформерами, но точные требования могут варьироваться в зависимости от конкретной реализации и задач.

Системные требования:

Процессор (CPU): многоядерный процессор средней или высокой производительности (например, Intel i5/i7 или AMD Ryzen 5/7).
Графический процессор (GPU): может потребоваться для ускорения обучения, но требования ниже, чем у трансформеров (например, NVIDIA GTX 1060/1070 или выше).
Оперативная память (RAM): от 16 GB и выше.
Хранилище: Быстрый SSD с достаточным объемом для хранения данных и моделей (минимум 500 GB).

Сравнение использования ресурсов

Оперативная память (RAM):

Трансформеры: обычно требуют больше оперативной памяти из-за сложности моделей и объема данных.
KAN: менее требовательны к оперативной памяти.

2. Процессор (CPU):
Трансформеры: высокая многопоточность и частота процессора важны для подготовки данных и предварительной обработки.
KAN: меньше нагрузки на процессор по сравнению с трансформерами.

3. Графический процессор (GPU):
Трансформеры: высокая зависимость от GPU для ускорения вычислений. Использование нескольких GPU может значительно улучшить производительность.
KAN: меньше зависит от GPU, но использование GPU все же желательно для ускорения.

Оптимизация использования ресурсов

Трансформеры часто используют техники, такие как разделение обучения на несколько GPU, использование смешанной точности (Mixed Precision Training) для экономии памяти и ускорения.

KAN может работать эффективно на одном GPU и обычно требует меньше оптимизаций по сравнению с трансформерами.

Выводы

Точность и стабильность:

Обе модели показывают высокую точность и стабильность в предсказаниях. Нейросеть KAN имеет преимущество по показателю Test Loss.

Преимущества моделей:

KAN позволяет добиться высокой точности при существенно меньших временных затратах. KAN имеет более лаконичную структуру кода при описании модели.

Применение:

Обе модели можно успешно применять для задач регрессии в материаловедении, однако выбор модели может зависеть от конкретных требований к точности и интерпретируемости результатов.

Использование системных ресурсов:

В целом, трансформеры требуют более мощного оборудования, особенно GPU, по сравнению с KAN. Однако конкретные требования могут варьироваться в зависимости от специфики задач и данных.

Таким образом, исследование демонстрирует, что как нейросеть трансформера, так и нейросеть KAN являются эффективными инструментами для задач регрессии, обладая своими уникальными преимуществами.

Литература

Для изучения теоремы представления Колмогорова–Арнольда и её применения в нейронных сетях использовали источники:

Аггарвал Ч. К. (2020). Нейронные сети и глубокое обучение: учебник. Москва: Издательство «Вильямс».
Гудфеллоу И., Бенджио Й., и Курвилл А. (2018). Глубокое обучение. Москва: Издательство "ДМК".
Zurada Jacek M (1992). Introduction to artificial neural systems. St. Paul: St. Paul: West.