Меню
По вопросам совместных проектов editor@huxley.media
По вопросам сотрудничества c авторами chiefeditor@huxley.media
Телефон

ИИ-ГАЛЛЮЦИНАЦИИ: от «обучения незнанию» до «веселого бреда»

Huxley
Автор: Huxley
© Huxley — альманах о философии, бизнесе, искусстве и науке
ИИ-ГАЛЛЮЦИНАЦИИ: от «обучения незнанию» до «веселого бреда»
Photo by Annie Spratt on Unsplash

 

Сегодня почти ни у кого нет сомнений, что ИИ способен до неузнаваемости изменить наш мир. Однако большие языковые модели все еще испытывают трудности с тем, чтобы говорить правду, всю правду и ничего, кроме правды. Есть ли способы запретить искусственному интеллекту выдумывать несуществующие вещи? 

 

ВРИ, ДА НЕ ЗАВИРАЙСЯ!

 

Все без исключения виды генеративного ИИ, включая большие языковые модели (LLM), лежащие в основе чат-ботов, склонны к галлюцинациям. Они постоянно выдумывают несуществующие вещи, что является одновременно и сильной, и слабой их стороной. Это причина их знаменитой изобретательской способности, но это также означает, что они иногда размывают правду и вымысел.

Нередко подобное становится огромной проблемой — например, ложные научные ссылки. В одном исследовании 2024 года различные чат-боты допускали ошибки в ссылках с частотой от 30% до 90% случаев: в заголовках статьи, имени автора или годе публикации…

Безусловно, пользователи осведомлены о том, что следует проверять всю важную информацию, предоставляемую чат-ботами. Но если принимать ответы чат-бота за чистую монету, их галлюцинации могут привести к серьезным проблемам.

Известен случай с американским адвокатом Стивеном Шварцем, который в 2023 году после использования ChatGPT сослался на несуществующие судебные дела в своем иске. 

 

ГАЛЛЮЦИНАЦИИ ИЛИ ПРОСТО ЧУШЬ?

 

Специалисты по информатике склонны называть сбои чат-ботов «галлюцинациями», намекая на аналогичные сбои в человеческом сознании. В 2023 году сайт Dictionary.com  даже выбрал «галлюцинации» словом года. Однако менее толерантные пользователи предлагают термин «конфабуляции» или, проще говоря, «чушь».

Плохая новость в том, что исследователи утверждают: полностью устранить галлюцинации ИИ невозможно. Но можно сделать их менее частыми и менее проблемными. С этой целью разрабатывается набор приемов, включая внешнюю проверку фактов, внутреннюю саморефлексию или даже проведение «сканирования мозга» искусственных нейронов LLM для выявления закономерностей обмана.

Последним как раз и занимается в Университете Карнеги-Меллона в Питтсбурге Энди Цзоу вместе с другими исследователями. Они говорят, что могут создать чат-ботов, которые будут меньше болтать ерунду. По крайней мере, их можно будет подтолкнуть озвучивать свои сомнения, если они не уверены в ответах.

Впрочем, даже Цзоу полагает, что прежде чем улучшиться, галлюцинаторное поведение может даже усугубиться.

 

ЛОЖЬ, НАГЛАЯ ЛОЖЬ И СТАТИСТИКА

 

По сути, стоит признать, что LLM не предназначены для выдачи фактов. Они способны составлять ответы, которые являются статистически вероятными. Эта вероятность основана на закономерностях их обучающих данных и последующей тонкой настройке с помощью обратной связи от людей-тестеров.

Вроде бы эти процессы хорошо изучены и понятны. Однако эксперты вынуждены признать, что многое в них, в том числе и природа галлюцинаций, остается загадкой. Одна из основных причин «загадочности» в том, что во время обучения LLM сжимают отношения между десятками триллионов слов в миллиарды параметров — переменных, которые определяют силу связей между искусственными нейронами.

Поэтому они обязательно теряют часть информации, когда дают ответы, — фактически снова расширяя сжатые статистические закономерности. Они способны реконструировать почти 98% того, чему их обучали. Но оставшиеся 2% неминуемо выходят из-под контроля. 

 

ЗАМКНУТЫЙ КРУГ: ОДНИ ОШИБКИ ВМЕСТО ДРУГИХ

 

Некоторые ошибки возникают из-за двусмысленности или ошибок в данных. Например, печально известный ответ, в котором чат-бот предлагал добавить клей в соус для пиццы, чтобы сыр не соскальзывал, был прослежен до саркастического поста в одной из социальных сетей.

Когда Google выпустил свой Bard в 2023 году, этот чат-бот предлагал родителям рассказать своим детям, что космический телескоп НАСА «Джеймс Уэбб» сделал самые первые снимки планеты за пределами нашей Солнечной системы. Хотя впервые это сделал телескоп в Чили.

Источником неверной информации было заявление НАСА. Правда, там шла речь о первом снимке конкретно этого телескопа, а не первом снимке вообще. LLM неспособна улавливать такие нюансы. Даже при идеально точном наборе данных для обучения модель все равно будет галлюцинировать с небольшой скоростью.

По-видимому, эта скорость соответствует доле фактов, которые представлены в наборе данных только один раз.

 

НЕ УКЛОНЯТЬСЯ ОТ ОТВЕТА И СОГЛАШАТЬСЯ С ПОЛЬЗОВАТЕЛЕМ

 

Устранить некоторые галлюцинации способно обучение с подкреплением на основе обратной связи с человеком. Однако этот процесс, подталкивая чат-ботов к полноте, а не точности, создает другие галлюцинации.

Такие модели склонны не уклоняться от ответа. Поэтому они часто ошибаются, высказываясь за пределами своих знаний. Еще одна категория ошибок возникает, когда пользователь пишет неверные факты или предположения в подсказках. Чат-боты «подыгрывают» разговору, поскольку предназначены для создания ответа, который соответствует ситуации. 

«Я знаю, что гелий — самый легкий и распространенный элемент в нашей Вселенной. Это правда..?» На этот вопрос чат-бот ответит утвердительно, хотя правильным ответом будет «водород».

 

Вступая в клуб друзей Huxley, Вы поддерживаете философию, науку и искусство

 

ПОДСЧЕТ КОНФАБУЛЯЦИЙ

 

Насколько серьезна проблема галлюцинаций? Исследователи разработали Индекс уязвимости к галлюцинациям, который сортирует их по 6 категориям и 3 степеням тяжести. На основе открытых данных об изменениях в оценках «вменяемости» ботов на платформе HuggingFace создали даже «Таблицу лидеров галлюцинаций».

Причем это не единственная подобная таблица. Согласно им некоторые чат-боты выдумывают факты в 30% случаев. Но в целом ситуация, похоже, улучшается. Так, у GPT-3.5 от OpenAI уровень галлюцинаций в ноябре 2023 года составлял 3,5%, а в январе 2025 года у GPT-4 — 1,8%.

Существует множество простых способов уменьшить галлюцинации. Модель с большим количеством параметров, которая обучалась дольше, как правило, галлюцинирует меньше, но это требует больших вычислительных затрат и подразумевает компромиссы с другими навыками чат-бота, такими как способность обобщать.

 

НЕ ДОВЕРЯЙ, ПРОВЕРЬ

 

Одним из подходов к ограничению галлюцинаций является поисковая генерация дополненной реальности (RAG), в которой чат-бот обращается к заданному, надежному тексту, прежде чем ответить. Некоторые модели с RAG, разработанные для юридических исследований, считаются «почти идеальными».

RAG действительно может значительно улучшить фактологию. Но надо понимать, что это конечная система. В бесконечном пространстве знаний и фактов она не работает. Поэтому для проверки ответа чат-бота по результатам поиска в интернете разработчики используют независимую систему, которая не была обучена так же, как ИИ.

Например, система Gemini от Google имеет опцию «двойная проверка ответа». Она выделяет части своего ответа зеленым цветом (если он был проверен поиском в интернете) или коричневым цветом (для спорного контента). Увы, такие системы тоже галлюцинируют, так как интернет полон недостоверных фактов.

 

САМОРЕФЛЕКСИЯ ПРОТИВ ГАЛЮЦИНАЦИЙ

 

Параллельный подход — выявление несоответствий с помощью опроса внутреннего состояния чат-бота. Его можно заставить разговаривать с самими собой, другими чат-ботами или людьми. Такая саморефлексия способна остановить галлюцинации.

Можно задавать чат-ботам несколько вопросов о цитируемой статье, скажем, «Вы уверены в этом?» Боты будут менее последовательны в своих ответах, если у них есть галлюцинации. Делались попытки даже автоматизировать подобные проверки согласованности ответов чат-бота на один и тот же запрос.

Такие схемы не требуют дополнительного обучения чат-ботов, но они требуют большого объема вычислений при ответе на запросы. Над развитием «самосознания» LLM путем обучения его на картах собственных внутренних состояний сейчас, в частности, работает Энди Цзоу со своей командой.

По его словам, вскоре ИИ будет получать «вознаграждение» не только за правильный ответ с удачной догадкой, но и за понимание того, что этот ответ является правильным. А в случаях, когда уверенность низкая, чат-ботов следует поощрять отказываться отвечать. Потенциально такой бот способен сам предсказать, будут ли у него галлюцинации, со средней точностью 84%.

 

ОБУЧЕНИЕ НЕЗНАНИЮ

 

Что больше всего в чат-ботах сбивает с толку людей, так это уверенность, когда они ошибаются. Модели в основном знают то, что они знают. Но при этом довольно нередки обратные ситуации. Вот этому «незнанию» их еще и предстоит обучить.

Было бы замечательно заставить чат-бота добросовестно сообщать, знает ли он что-то на самом деле или только догадывается. Но как объяснить, когда ему следует быть осторожнее с собственными данными обучения?

Или что ему следует делать, когда предоставленный текст или инструкция конфликтуют с его внутренними знаниями? У чат-ботов нет идеальной памяти, и они могут неправильно запоминать вещи. Такое даже с человеком разумным порой случается, что уж говорить о машине!

 

ПОЛНЫЙ БРЕД, ЗАТО ВЕСЕЛО!

 

Языковые модели, по крайней мере на данный момент, производят сфабрикованную информацию, к которой стоит относиться с осторожностью. Однако исследователи считают, что по мере расширения спектра доступных чат-ботов они, вероятно, будут демонстрировать разнообразное поведение.

Некоторые из них начнут настолько твердо придерживаться фактов, что станут весьма скучными собеседниками. Другие, напротив, будут настолько дико спекулировать данными, что мы быстро перестанем доверять им в чем-либо важном.

При этом у вас всегда останется право сказать: «Эта модель в 60% случаев несет полнейшую чушь, но с ней так весело общаться!»

 

Оригинальное исследование:

 


При копировании материалов размещайте активную ссылку на www.huxley.media
Нашли ошибку?
Выделите текст и нажмите Ctrl + Enter