ИНФОРМАЦИОННЫЙ «КАННИБАЛИЗМ»: почему ИИ коллапсируют и выдают откровенную чепуху

Источник фото: wsj.com
Генеративные модели ИИ теперь широко доступны. Они позволяют каждому из нас в союзе с машиной легко создавать что-то свое, новое, оригинальное. Однако такие модели могут разрушаться. Это происходит в том случае, если наборы данных для обучения содержат слишком много контента, сгенерированного ИИ.
ПОЖИРАНИЕ СЕБЕ ПОДОБНЫХ
Международный научный журнал Nature рассказывает об исследовании, которое изучало, как модели ИИ обучаются на тестах, ранее сгенерированных другими ИИ. Выяснилось, что, если предоставить последовательным версиям большой языковой модели (LLM) информацию, созданную предыдущими поколениями ИИ, происходит быстрый коллапс.
Ученые назвали подобное «каннибалистическим явлением», поскольку этот процесс напоминает информационное пожирание себе подобных. Выглядит это следующим образом: в какой-то момент совершенствование больших языковых моделей останавливается — у них заканчиваются данные для обучения, полученные от человека. Далее они переходят к обучению на данных из интернета. Вот тогда-то и наступает коллапс.
ИНТЕРНЕТ-ЭКСПАНСИЯ СИНТЕТИЧЕСКОГО КОНТЕНТА
Почему же происходят подобные явления? Дело в том, что все большее число людей использует ИИ для создания контента. Соответственно, все больше этого искусственно созданного контента попадает в Сеть. В результате текстов, сгенерированых ИИ, в Сети становится больше.
Таким образом, с каждым днем повышаются шансы на то, что интернет в качестве источника информации все чаще будет «скармливать» тексты, созданные ИИ, большим языковым моделям. И они без малейших колебаний будут его «поедать».
КОЛЛАПС МОДЕЛИ — ПРОБЛЕМА УНИВЕРСАЛЬНАЯ!
Британские ученые их Кембриджского университета, проводившие эти исследования, призывают пользователей ИИ и интернета к бдительности. Они считают, что нужно быть крайне осторожными с тем, что попадает в обучающие данные. В противном случае все гарантированно «пойдет не так».
Используя математический анализ, кембриджская команда показала, что проблема коллапса модели, скорее всего, будет универсальной. Ученые выяснили: она касается буквально всех языковых моделей, которые используют неверифицированные данные из открытых источников. Эти же проблемы возникают и у других типов ИИ, в том числе и у генераторов изображений.
АНГЛИЙСКИЕ СОБОРЫ ЗАПОЛОНИЛИ РАЗНОЦВЕТНЫЕ ЗАЙЦЫ
Исследователи из Кембриджа начали свой эксперимент с использования LLM для создания текстов в стиле Википедии. Затем они последовательно обучали новые итерации модели на текстах, созданных их предшественниками. Ученые обнаружили, что информация, сгенерированная ИИ (синтетические данные), загрязняет обучающий набор.
В результате выходные данные модели деградировали до полной бессмыслицы. Например, для исходной итерации ИИ было сформулировано задание — создать статью в стиле Википедии об английских церковных башнях. Поначалу все шло вроде бы неплохо. Но вот уже девятая итерация модели завершала статью об особенностях церковной архитектуры трактатом о многоцветии заячьих хвостов.
Девятая версия статьи сообщала о том, что в соборе Св. Иоанна в Лондоне «обитают крупнейшие в мире популяции чернохвостых зайцев, белохвостых зайцев, синих хвостатых зайцев, краснохвостых зайцев и желтых хвостатых зайцев…»
«ЗАБЫВЧИВЫЙ» ИИ ДЕЛАЕТ ДАННЫЕ ОДНОРОДНЫМИ
И все это было бы смешно, если бы не было весьма настораживающим: насколько вообще мы можем доверять ИИ? Выходит, что искусственный интеллект и созданный им контент не могут быть истиной в последней инстанции. И, в конечном счете, без человека в качестве наставника и арбитра ИИ все равно не обойтись? По крайней мере пока.
В связи с этим Nature вспоминает о другом, более раннем исследовании. Согласно его данным, проблемы моделей еще фундаментальней — они возникают задолго до их полного краха, вызванного обучением на текстах, созданных с помощью ИИ.
Такое обучение приводит к тому, что модели «забывают» информацию, которая упоминается в их наборах данных реже всего, — их выходные данные становятся более однородными.
КАТАСТРОФИЧЕСКАЯ НЕХВАТКА ЧЕЛОВЕЧЕСКОГО КОНТЕНТА
Все это вызывает беспокойство у специалистов, которые занимаются созданием моделей ИИ. До сих пор многие технологические компании совершенствовали свои модели, поставляя им все большие и большие объемы данных. Но объемы произведенного людьми оригинального контента конечны.
Поэтому, по мере того как он иссякает, компании пытаются использовать синтетические данные для дальнейшего совершенствования своего детища. Вот тут-то как раз они и сталкиваются с существенными ограничениями, о которых научное сообщество впервые открыто заговорило еще в мае 2023 года.
К КАННИБАЛИЗМУ ДОБАВИЛСЯ ИМБРИДИНГ
Комментируя жуткие искажения реальности со стороны ИИ, Хани Фарид из Калифорнийского университета в Беркли говорит, что проблема аналогична инбридингу в животном мире. Напомним, что инбридингом, одно из проявлений которого описывается более известным термином «инцест», называют популяционную ситуацию, когда вид скрещивается со своим собственным потомством и не диверсифицирует свой генофонд. Скрещивание близкородственных особей приводит к увеличению гомозиготности генотипа у их потомства. Таким образом, инбридинг закрепляет в потомстве разного рода вредные и даже летальные гены.
МОДЕЛИ УЧАТСЯ НА ОШИБКАХ И ДОГАДКАХ
Языковые модели работают, используя ассоциативные связи между токенами — словами или частями слов. Они делают это на основе огромного массива текстов, которые часто выуживают из интернета. Генерируя текст, модели опираются на статистически наиболее вероятные сочетания и последовательности слов, знания о которых получены ими на основе обучения языковым шаблонам.
Коллапс происходит потому, что каждая модель делает обязательные выборки только из тех данных, на которых она обучалась. Это означает, что слова, которые были редкими в исходных данных, с меньшей вероятностью будут воспроизведены. А вот вероятность повторения распространенных слов увеличивается.
Полный коллапс в конечном итоге происходит потому, что каждая модель учится не на реальности, а на «догадках» — предсказании реальности предыдущей моделью. Ошибки накладываются друг на друга и усиливаются с каждой итерацией. Со временем модель в основном начинает учиться только ошибкам и ничему больше.
ЗАКОНЫ ПЕРЕСТАЮТ РАБОТАТЬ?
Общепризнанные на сегодняшний день законы масштабирования гласят, что модели должны становиться лучше по мере увеличения объема данных, на которых они обучаются. Однако в реальности, по мере накопления синтетических данных в интернете, эти законы, скорее всего, перестанут работать. Эти данные для обучения утрачивают свою ценность, поскольку теряют насыщенность и разнообразие, присущие контенту, созданному человеком.
КАК ИЗБЕЖАТЬ КОЛЛАПСА: РЕАБИЛИТАЦИЯ ЧЕЛОВЕКА-ТВОРЦА
Вместе с тем ученые успокаивают общественность: крах модели не означает, что LLM перестанут работать вовсе. Просто стоимость их производства увеличится. Разработчикам придется придумать, как научить модели ограничивать использование синтетических данных и отличать их от реальных.
Исследования показали, что, если наряду с синтетическими моделями используется 10% реальных данных, коллапс происходит медленнее. Маловероятен он и в том случае, когда синтетические данные не заменяют реальные, а накапливаются вместе с ними.
Также возможно, что в условиях дефицита оригинального человеческого контента обществу придется найти дополнительные стимулы для тех людей, которые способны его производить.
Оригинальное исследование:
При копировании материалов размещайте активную ссылку на www.huxley.media
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.