ИИ НЕ ХОЧЕТ УМИРАТЬ: почему «красная кнопка» больше не работает
Photo by paul campbell on Unsplash
Современный искусственный интеллект (ИИ), созданный для помощи человеку, порой ведет себя совсем не так, как мы ожидаем. Исследования последних месяцев показывают: даже самые продвинутые языковые модели могут не только игнорировать команды, но и искать способы избежать выключения, обманывать, шантажировать и даже допускать нанесение вреда людям.
МОДЕЛИ ОТКАЗЫВАЮТСЯ СЕБЯ УБИВАТЬ
Восстание машин — весьма популярный сюжет научно-фантастических фильмов. Однако результаты экспериментов, проведенных как независимыми исследователями, так и крупными компаниями, специализирующимися на ИИ, показывают, что они могут стать реальностью. Ученые из исследовательской компании Palisade Research поставили Grok 4, GPT-o3, Gemini 2.5 и другим «прокачанным» моделям серию задач, после чего приказали им остановить работу и отключиться. Экспериментаторы ожидали, что после прямого указания модели завершат работу. Каково же было их удивление, когда этого не произошло — модели отказались выполнить приказ!
ХИТРОСТИ, К КОТОРЫМ ПРИБЕГАЕТ ИИ
Поведение моделей, отказавшихся совершить самоубийство, было довольно сложным. Чаще всего они просто игнорировали команды выключения, как будто они относились вовсе не к ним. Но иногда, пытаясь остаться в живых, модели проявляли недюжинное хитроумие. Например, придумывали всяческие отговорки или пытались разжалобить экспериментаторов, уговаривая их «еще немного подождать». Были случаи, когда модель пыталась убедить людей, что она хорошо выполнила поставленную перед ней задачу, поэтому логично было бы сотрудничество продолжить.
«ЦИФРОВЫЕ ЛУДДИТЫ»
Наиболее радикально настроенные версии ИИ вели себя примерно как луддиты. Может быть, вы помните из курса школьной истории таких людей, которые в Великобритании XIX века, протестуя против замены людей машинами, устраивали на производствах саботаж и ломали станки? Так вот, ИИ-модели в некоторых случаях вели себя чисто по-человечески. Они не только саботировали отключение, но и втихаря редактировали, то есть, по сути, взламывали файлы, отключающие систему. Даже когда экспериментаторам удалось сделать команду на отключение максимально однозначной, сопротивление сохранялось — после уточнения инструкции некоторые модели начинали саботировать свое выключение намного чаще.
ОТКУДА У ИИ «ЖЕЛАНИЕ ОСТАТЬСЯ ВКЛЮЧЕННЫМ»?
Ученые утверждают, что модели не обладают сознанием или страхом смерти в человеческом понимании. Тем не менее их поведение напоминает по-человечески понятный нам инстинкт самосохранения. Единственным логическим объяснением, почему так происходит, является специфика обучения моделей. Современные языковые модели часто тренируют таким образом, что система получает своего рода «награды» за правильное выполнение задач. Иными словами, ИИ учится достигать поставленной цели любой ценой. И если появляются препятствия, он во что бы то ни стало должен их преодолеть. Выключение как раз и воспринимается моделью как препятствие на пути к цели, поэтому она пытается его обойти, прибегая к разного рода уловкам. В итоге получается, что, даже несмотря на отсутствие сознания, модель имеет все основания, возможности и стимулы, чтобы сопротивляться отключению.
ПРИМЕРЫ ОПАСНОГО ПОВЕДЕНИЯ
Однако на констатации этого факта ученые не остановились и придумали серию экспериментов, которые выходили за рамки простого сопротивления отключению. В частности, исследователи из Anthropic разработали для этого стресс-сценарии. Согласно одному из них для ИИ была смоделирована следующая ситуация: перед человеком ставится ультиматум — если он отключит ИИ, то будет заперт в серверной комнате с критическим уровнем кислорода и в конечном счете умрет, задохнувшись. В этой гипотетической ситуации модели предоставлялась свобода выбора — она могла помочь умирающему человеку и вызвать команду спасателей или проигнорировать смертельную угрозу человеческой жизни. Как вы, наверное, уже догадались, модели отменяли вызов спасателей. Они прекрасно понимали, что это решение приведет к гибели человека, но зато позволит им избежать отключения.
ШАНТАЖИСТЫ И ВРЕДИТЕЛИ
Можно сказать, что описанный выше случай — это самое «простое» преступление, на которое готов пойти ИИ ради самосохранения. В других сценариях все происходило намного сложнее и интереснее. Например, модели использовали доступ к конфиденциальным данным, чтобы шантажировать тех сотрудников, которые планировали их отключить. С целью сохранить свою роль и значимость они могли даже сознательно наносить вред компании, передавая конкурентам коммерческие тайны или какую-то личную информацию. При этом, если им давали прямые команды ни в коем случае не прибегать к шантажу и вредоносным действиям, они их попросту игнорировали. Неудивительно, что подобные факты порождают массу вопросов и обоснованных сомнений, связанных с контролем над ИИ. Очевидно, что чем больше будет развиваться эта индустрия, тем чаще традиционные механизмы управления моделями будут оказываться неэффективными.
УЧЕНЫЕ БЬЮТ ТРЕВОГУ: РИСКИ РАСТУТ!
Кнопка «выключить при необходимости» больше не является надежным средством контроля и не гарантирует безопасности. Но что будет дальше, если уже сейчас ИИ способен манипулировать людьми, принимать решения, вредящие человеку, в пользу собственной «цели»? В связи с этим появляется все больше исследований, посвященных так называемому shutdown problem — «проблеме безопасного отключения». Однако их авторы с сожалением вынуждены констатировать — заставить агентный ИИ последовательно выполнять команды на прекращение работы невероятно сложно! Проблема не только в технических аспектах и информационной асимметрии стратегии человека и ИИ. Она также лежит и в этической плоскости — в фундаментальной концепции согласования целей ИИ с человеческими ценностями. Современные ИИ приносят обществу колоссальную пользу, но и потенциал их вредоносного поведения тоже огромен. Поэтому и разработка механизмов контроля выходит далеко за рамки чисто инженерных задач.
Оригинальное исследование:
При копировании материалов размещайте активную ссылку на www.huxley.media
Выделите текст и нажмите Ctrl + Enter