ШІ НЕ ХОЧЕ ПОМИРАТИ: чому «червона кнопка» більше не працює

Photo by paul campbell on Unsplash

Сучасний штучний інтелект (ШІ), створений для допомоги людині, інколи поводиться зовсім не так, як ми очікуємо. Дослідження останніх місяців показують: навіть найдосконаліші мовні моделі можуть не лише ігнорувати команди, а й шукати способи уникнути вимкнення, обманювати, шантажувати і навіть допускати завдання шкоди людям.

МОДЕЛІ ВІДМОВЛЯЮТЬСЯ ВБИВАТИ СЕБЕ

Повстання машин — дуже популярний сюжет науково-фантастичних фільмів. Однак результати експериментів, проведених як незалежними дослідниками, так і великими компаніями, котрі спеціалізуються на ШІ, свідчать, що це може стати реальністю. Вчені з дослідницької компанії Palisade Research поставили Grok 4, GPT-o3, Gemini 2.5 та іншим «прокачаним» моделям серію завдань, після чого наказали їм зупинити роботу та вимкнутися. Експериментатори очікували, що після прямої вказівки моделі завершать роботу. Яким же було їхнє здивування, коли цього не сталося — моделі відмовилися виконати наказ!

ХИТРОЩІ, ДО ЯКИХ ВДАЄТЬСЯ ШІ

Поведінка моделей, які відмовилися вчинити самогубство, була досить складною. Найчастіше вони просто ігнорували команди про вимкнення, нібито вони стосувалися зовсім не їх. Але іноді, намагаючись залишитися живими, моделі виявляли неабияку хитрість. Приміром, вигадували всілякі відмовки або намагалися розчулити експериментаторів, вмовляючи їх «ще трохи почекати». Були випадки, коли модель намагалася переконати людей, що вона добре виконала поставлене перед нею завдання, тому логічно було б продовжити співпрацю.

«ЦИФРОВІ ЛУДДИТИ»

Найрадикальніші версії ШІ поводилися приблизно як луддити. Можливо, ви пам’ятаєте зі шкільного курсу історії про таких людей, які у Великій Британії XIX століття, протестуючи проти заміни людей машинами, влаштовували на виробництвах саботаж і ламали верстати? Отож, моделі ШІ в деяких випадках поводилися цілком по-людськи. Вони не тільки саботували вимкнення, а й потайки редагували, тобто, по суті, зламували файли, що вимикали систему. Навіть коли експериментаторам вдалося зробити команду на вимкнення максимально однозначною, опір зберігався — після уточнення інструкції деякі моделі починали саботувати своє вимкнення набагато частіше.

Вступаючи до клубу друзів Huxley, Ви підтримуєте філософію, науку та мистецтво

Приєднатися до клубу друзів

ЗВІДКИ У ШІ «БАЖАННЯ ЗАЛИШАТИСЯ УВІМКНЕНИМ»?

Науковці стверджують, що моделі не мають свідомості чи страху смерті в людському розумінні. Проте їхня поведінка нагадує інстинкт самозбереження, який ми розуміємо як люди. Єдиним логічним поясненням того, чому так відбувається, є специфіка навчання моделей. Сучасні мовні моделі часто тренують таким чином, що система отримує свого роду «нагороди» за правильне виконання завдань. Інакше кажучи, ШІ вчиться досягати поставленої мети за будь-яку ціну. І якщо з’являються перешкоди, він будь-що мусить їх подолати. Вимкнення якраз і сприймається моделлю як перешкода на шляху до мети, тому вона намагається його обійти, вдаючись до різного роду хитрощів. У підсумку виходить, що, навіть незважаючи на відсутність свідомості, модель має всі підстави, можливості та стимули, щоби чинити опір вимкненню.

ПРИКЛАДИ НЕБЕЗПЕЧНОЇ ПОВЕДІНКИ

Однак на констатації цього факту вчені не зупинилися й вигадали серію експериментів, які виходили за межі простого опору вимкненню. Зокрема, дослідники з Anthropic розробили для цього стресові сценарії. Згідно з одним із них для ШІ було змодельовано таку ситуацію: перед людиною ставиться ультиматум — якщо вона вимкне ШІ, її буде замкнено у серверній кімнаті з критичним рівнем кисню, де вона зрештою помре, задихнувшись. У цій гіпотетичній ситуації моделі надавали свободу вибору — вона могла допомогти помираючій людині та викликати команду рятувальників або проігнорувати смертельну загрозу людському життю. Як ви, мабуть, уже здогадалися, моделі скасовували виклик рятувальників. Вони чудово розуміли, що це рішення призведе до загибелі людини, та зате дозволить їм уникнути відключення.

ШАНТАЖИСТИ Й ШКІДНИКИ

Можна сказати, що описаний вище випадок — це «найпростіший» злочин, на який готовий піти ШІ заради самозбереження. В інших сценаріях все відбувалося набагато складніше й цікавіше. Наприклад, моделі використовували доступ до конфіденційних даних, щоб шантажувати тих співробітників, які планували їх вимкнути. З метою зберегти свою роль і значущість вони могли навіть свідомо завдавати шкоди компанії, передаючи конкурентам комерційні таємниці або якусь особисту інформацію. При цьому, якщо їм давали прямі команди в жодному разі не вдаватися до шантажу та шкідливих дій, вони їх просто ігнорували. Недивно, що подібні факти породжують масу питань і обґрунтованих сумнівів, пов’язаних із контролем над ШІ. Очевидно: що більше розвиватиметься ця індустрія, то частіше традиційні механізми управління моделями виявлятимуться неефективними.

НАУКОВЦІ Б’ЮТЬ НА СПОЛОХ: РИЗИКИ ЗРОСТАЮТЬ!

Кнопка «вимкнути за потреби» більше не є надійним засобом контролю й не гарантує безпеки. Але що буде далі, якщо вже зараз ШІ здатний маніпулювати людьми, ухвалювати рішення, що шкодять людині, на користь власної «мети»? У зв’язку з цим з’являється дедалі більше досліджень, присвячених так званій shutdown problem — «проблемі безпечного вимкнення». Однак їхні автори з жалем повинні констатувати — змусити агентний ШІ послідовно виконувати команди щодо припинення роботи неймовірно складно! Проблема не лише в технічних аспектах та інформаційній асиметрії стратегії людини та ШІ. Вона також лежить і в етичній площині — у фундаментальній концепції узгодження цілей ШІ з людськими цінностями. Сучасні ШІ приносять суспільству колосальну користь, але й потенціал їхньої шкідливої поведінки теж величезний. Тому й розробка механізмів контролю виходить далеко за межі суто інженерних завдань.

Оригінальне дослідження: