Познакомьтесь с автоматизированным рассуждением и инструментом

Блог

ДомДом / Блог / Познакомьтесь с автоматизированным рассуждением и инструментом

Nov 24, 2023

Познакомьтесь с автоматизированным рассуждением и инструментом

Большие языковые модели могут быстро адаптироваться к новым задачам, используя контекст.

Большие языковые модели могут быстро адаптироваться к новым задачам с использованием контекстного обучения, получив несколько демонстраций и инструкции на реальном языке. Это позволяет избежать размещения LLM или аннотирования больших наборов данных, но имеет серьезные проблемы с производительностью при многоэтапном рассуждении, математических расчетах, наличии самой последней информации и других вещах. Недавние исследования предлагают предоставить магистрам права доступ к инструментам, облегчающим более сложные этапы рассуждения, или предложить им имитировать цепочку рассуждений для многоэтапного рассуждения, чтобы облегчить эти ограничения. Тем не менее, по причине использования инструментов сложно адаптировать устоявшиеся подходы к новым видам деятельности и инструментам; это требует тонкой настройки или быстрого проектирования, специально предназначенного для конкретного вида деятельности или инструмента.

Исследователи из Вашингтонского университета, Microsoft, Meta, Калифорнийского университета и Института исследований искусственного интеллекта Аллена разрабатывают систему автоматического рассуждения и использования инструментов (ART), которая автоматически создает декомпозицию (многоэтапное рассуждение) для примеров новых задач, представленную в этом исследовании. . ART извлекает примеры подобных задач из библиотеки задач, чтобы можно было разбить их на несколько шагов и использовать инструменты для дальнейшей работы. В этих примерах используется гибкий, но структурированный язык запросов, который позволяет легко читать промежуточные этапы, приостанавливать создание для использования внешних инструментов и перезапускать его после включения результатов этих инструментов (рис. 1). Кроме того, на каждом этапе фреймворк выбирает и использует наиболее подходящие инструменты (например, поисковые системы и выполнение кода).

LLM получает от ART демонстрации о том, как разбить примеры различных связанных действий и как выбрать и использовать любой инструмент из библиотеки инструментов, изображенной в этих примерах. Это помогает модели обобщать примеры, разбивать на новые задачи и использовать подходящие инструменты для работы без единого выстрела. Кроме того, пользователи могут обновлять библиотеки задач и инструментов и при необходимости добавлять последние примеры для исправления любых ошибок в логической цепочке или добавления новых инструментов (например, для конкретной задачи).

Они создают библиотеку задач для 15 задач BigBench и тестируют ART на 19 тестовых задачах BigBench, которые раньше не встречались, 6 задачах MMLU и многочисленных задачах из соответствующих исследований использования инструментов (SQUAD, TriviaQA, SVAMP, MAWPS). Для 32 из 34 задач BigBench и всех задач MMLU ART регулярно соответствует или превосходит созданные компьютером цепочки рассуждений CoT в среднем более чем на 22 процентных пункта. Когда инструменты разрешены, производительность тестовых задач увеличивается в среднем примерно на 12,3 процентных пункта по сравнению с тем, когда они не разрешены.

В среднем ART превосходит прямые подсказки из нескольких шагов как в задачах BigBench, так и в задачах MMLU на 10,8% процентных пунктов. ART превосходит прямые подсказки с помощью нескольких шагов в невидимых задачах, требующих математических и алгоритмических рассуждений, на 12,5% и превосходит самые известные результаты GPT3, включая контроль декомпозиции и использования инструментов, на 6,1% процентных пунктов. Обновление библиотек задач и инструментов новыми примерами позволяет взаимодействовать с человеком и совершенствовать процесс рассуждения, что невероятно упрощает повышение производительности любой конкретной работы с минимальным вмешательством человека. В 12 тестовых заданиях ART превосходит самые известные результаты GPT3 в среднем более чем на 20% при наличии дополнительной обратной связи от человека.

ПроверьтеБумагаиСтраница проекта . Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также не забудьте присоединитьсянаш 16 тысяч+ ML SubReddit,Дискорд-канал, иИнформационный бюллетень по электронной почте, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами в области искусственного интеллекта и многим другим.

Аниш Тику — стажер-консультант в MarktechPost. В настоящее время он учится на степень бакалавра в области науки о данных и искусственного интеллекта в Индийском технологическом институте (IIT) в Бхилаи. Большую часть своего времени он проводит над проектами, направленными на использование возможностей машинного обучения. Его исследовательский интерес — обработка изображений, и он увлечен созданием решений на ее основе. Он любит общаться с людьми и участвовать в интересных проектах.