Исследователи из Стэнфорда представляют Parsel: платформу искусственного интеллекта для искусственного интеллекта, которая обеспечивает автоматическую реализацию и проверку сложных алгоритмов с помощью языковых моделей с большим кодом LLM

Новости

ДомДом / Новости / Исследователи из Стэнфорда представляют Parsel: платформу искусственного интеллекта для искусственного интеллекта, которая обеспечивает автоматическую реализацию и проверку сложных алгоритмов с помощью языковых моделей с большим кодом LLM

Nov 18, 2023

Исследователи из Стэнфорда представляют Parsel: платформу искусственного интеллекта для искусственного интеллекта, которая обеспечивает автоматическую реализацию и проверку сложных алгоритмов с помощью языковых моделей с большим кодом LLM

Хотя в последнее время были достигнуты успехи в рассуждениях на основе моделей большого языка (LLM),

Хотя в последнее время были достигнуты успехи в рассуждениях на основе моделей большого языка (LLM), LLM по-прежнему испытывает трудности с решением иерархических многоэтапных задач рассуждения, таких как разработка сложных программ. Программисты-люди, в отличие от других генераторов токенов, (обычно) научились разбивать сложные задачи на управляемые компоненты, которые работают по отдельности (модульные) и работают вместе (композиционные). В качестве бонуса, если созданные человеком токены вызывают проблемы с функцией, должна быть возможность переписать эту часть программного обеспечения, не затрагивая остальную часть приложения. Напротив, наивно предполагается, что кодовые LLM будут создавать последовательности токенов без ошибок.

Это побудило недавнее исследование Стэнфордского университета изучить возможность использования LLM для декомпозиции задач и построения композиционных решений. Они предлагают Parsel, компилятор, который принимает спецификацию, включающую описания функций, написанные на естественном языке, и ограничения, определяющие желаемое поведение реализованных функций. Используя Parsel, программисты могут писать программы простым языком, которые могут решать проблемы кодирования на уровне соревнований, превосходя по производительности предыдущую SoTA более чем на 75%.

Коду LLM дается описание функции и сигнатуры функций, от которых она зависит, и его просят сгенерировать реализации функции. При добавлении ограничения компилятор будет просматривать возможные комбинации реализации, пока не найдет ту, которая работает.

Предыдущие исследования показали, что, в отличие от людей, модели кодового языка не могут разрабатывать программы, которые последовательно выполняют множество мелких задач. Parsel устраняет проблему, разделяя процессы декомпозиции и реализации. Хотя они намеревались обеспечить кодирование на естественном языке, они обнаружили, что LLM также преуспевают в кодировании на Parsel.

Разложение абстрактного плана до тех пор, пока он не будет решен автоматически, — это обычная закономерность в человеческих рассуждениях, отраженная в создании и реализации Parsel; эта композиционная структура также полезна для языковых моделей. В этом исследовании команда демонстрирует, что LLM могут создавать Parsel из небольшого количества экземпляров и что их решения превосходят самые современные методы решения проблем уровня конкуренции из набора данных APPS. Планы, написанные специалистами LLM с использованием Parsel для создания пошаговых роботизированных планов на основе заданий высокого уровня, что удивительно, более чем на две трети точнее базового плана планирования с нулевым выстрелом.

Чтобы оценить эффективность Parsel, Габриэль Поэзия, опытный программист, использовал его для решения множества задач APPS, обычно встречающихся на соревнованиях по программированию. За 6 часов он нашел решения 5 из 10 проблем, включая 3, с которыми ранее не справился GPT-3.

Исследователи показывают, что Parsel можно использовать для доказательства теорем и других действий, требующих алгоритмических рассуждений, если сформулировать его как универсальную структуру.

В ближайшем будущем они планируют реализовать автономную генерацию модульных тестов. Они отмечают, что одним из подходов может быть поиск особых ситуаций и проверка того, согласна ли группа функций, которая согласуется со всеми существующими тестами, и с какими-либо новыми тестами. Избегается экспоненциальное развитие комбинаций реализаций, что может сделать возможной автоматическую декомпозицию. Они также стремятся отрегулировать «порог уверенности» языковой модели, поскольку необходимо сохранять ясные и краткие описания для более важных программ или разделов программ, необходимо убедиться, что описания ясны и кратки.

ПроверьтеБумага,Гитхаб,иСтраница проекта. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также не забудьте присоединитьсянаш 13 тысяч+ ML SubReddit,Дискорд-канал, иИнформационный бюллетень по электронной почте, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами в области искусственного интеллекта и многим другим.

Танушри Шенвай — стажер-консультант в MarktechPost. В настоящее время она учится на степень бакалавра технических наук в Индийском технологическом институте (ИИТ), Бхубанешвар. Она увлекается наукой о данных и проявляет большой интерес к сфере применения искусственного интеллекта в различных областях. Она с энтузиазмом изучает новые достижения в области технологий и их практическое применение.