Huxley
Автор: Huxley
© Huxley — альманах про філософію, мистецтво та науку

ІНФОРМАЦІЙНИЙ «КАНІБАЛІЗМ»: чому ШІ колапсують і видають відверту нісенітницю

ІНФОРМАЦІЙНИЙ «КАНІБАЛІЗМ»: чому ШІ колапсують і видають відверту нісенітницю
Джерело фото: wsj.com

 

Генеративні моделі ШІ тепер широко доступні. Вони дозволяють кожному з нас у союзі з машиною легко створювати щось своє, нове, оригінальне. Однак такі моделі можуть руйнуватися. Це відбувається в тому випадку, якщо набори даних для навчання містять занадто багато контенту, згенерованого ШІ.

 

ПОЖИРАННЯ СОБІ ПОДІБНИХ

 

Міжнародний науковий журнал Nature розповідає про дослідження, що вивчало, як моделі ШІ навчаються на тестах, раніше згенерованих іншими ШІ. І з’ясувалося: якщо надати послідовним версіям великої мовної моделі (LLM) інформацію, створену попередніми поколіннями ШІ, відбувається швидкий колапс.

Вчені назвали подібне «канібалістичним явищем», оскільки цей процес нагадує інформаційне пожирання собі подібних. Виглядає це так: у якийсь момент вдосконалення великих мовних моделей зупиняється — у них закінчуються дані для навчання, отримані від людини. Далі вони переходять до навчання на даних з інтернету. Ось тоді й настає колапс.

 

ІНТЕРНЕТ-ЕКСПАНСІЯ СИНТЕТИЧНОГО КОНТЕНТУ

 

Чому ж відбуваються подібні явища? Річ у тім, що дедалі більше людей використовує ШІ для створення контенту. Відповідно, дедалі більше цього штучно створеного контенту потрапляє в Мережу. У результаті текстів, згенерованих ШІ, в Мережі стає більше.

Таким чином, з кожним днем підвищуються шанси на те, що інтернет як джерело інформації дедалі частіше «згодовуватиме» тексти, створені ШІ, великим мовним моделям. І вони без найменших вагань будуть його «поїдати».

 

КОЛАПС МОДЕЛІ — ПРОБЛЕМА УНІВЕРСАЛЬНА!

 

Британські науковці з Кембриджського університету, які проводили ці дослідження, закликають користувачів ШІ та інтернету до пильності. Вони вважають, що потрібно бути вкрай обережними з тим, що потрапляє в навчальні дані. В іншому разі все гарантовано «піде не так».

Використовуючи математичний аналіз, кембриджська команда показала, що проблема колапсу моделі, найімовірніше, буде універсальною. Учені з’ясували: вона стосується буквально всіх мовних моделей, які використовують неверифіковані дані з відкритих джерел. Ці ж проблеми виникають і в інших типів ШІ, зокрема й у генераторів зображень.

 

АНГЛІЙСЬКІ СОБОРИ ЗАПОЛОНИЛИ РІЗНОКОЛЬОРОВІ ЗАЙЦІ

 

Дослідники з Кембриджа почали свій експеримент з використання LLM для створення текстів у стилі Вікіпедії. Потім вони послідовно навчали нові ітерації моделі на текстах, створених їхніми попередниками. Науковці виявили, що інформація, згенерована ШІ (синтетичні дані), забруднює навчальний набір.

У результаті вихідні дані моделі деградували до повної нісенітниці. Наприклад, для вихідної ітерації ШІ було сформульовано завдання — створити статтю в стилі Вікіпедії про англійські церковні вежі. Спочатку все йшло начебто непогано. Але ось уже дев’ята ітерація моделі завершувала статтю про особливості церковної архітектури трактатом про різнобарвність заячих хвостів.

Дев’ята версія статті повідомляла про те, що в соборі Св. Іоанна в Лондоні «мешкають найбільші у світі популяції чорнохвостих зайців, білохвостих зайців, синіх хвостатих зайців, червонохвостих зайців і жовтих хвостатих зайців…»

 

«ЗАБУДЬКУВАТИЙ» ШІ РОБИТЬ ДАНІ ОДНОРІДНИМИ

 

І все це було б смішно, якби не було вельми насторожуючим: наскільки взагалі ми можемо довіряти ШІ? Виходить, що штучний інтелект і створений ним контент не можуть бути істиною в останній інстанції. І, зрештою, без людини як наставника й арбітра ШІ все одно не обійтися? Принаймні поки що.

У зв’язку з цим Nature згадує про інше, більш раннє дослідження. Згідно з його даними, проблеми моделей ще фундаментальніші — вони виникають задовго до їхнього повного краху, спричиненого навчанням на текстах, створених за допомогою ШІ.

Таке навчання призводить до того, що моделі «забувають» інформацію, яка згадується в їхніх наборах даних найрідше, — їхні вихідні дані стають більш однорідними.

 

Вступаючи до клубу друзів Huxley, Ви підтримуєте філософію, науку та мистецтво

 

КАТАСТРОФІЧНА НЕСТАЧА ЛЮДСЬКОГО КОНТЕНТУ

 

Усе це викликає занепокоєння у фахівців, які займаються створенням моделей ШІ. Досі багато технологічних компаній удосконалювали свої моделі, постачаючи їм все більші й більші обсяги даних. Але обсяги виробленого людьми оригінального контенту кінцеві.

Тому, у міру того як він вичерпується, компанії намагаються використовувати синтетичні дані для подальшого вдосконалення свого дітища. Ось тут якраз вони й стикаються з істотними обмеженнями, про які наукова спільнота вперше відкрито заговорила ще в травні 2023 року.

 

ДО КАНІБАЛІЗМУ ДОДАВСЯ ІМБРИДИНГ

 

Коментуючи моторошні спотворення реальності з боку ШІ, Хані Фарід з Каліфорнійського університету в Берклі каже, що проблема аналогічна інбридингу в тваринному світі. Нагадаємо, що інбридингом, один із проявів якого описується більш відомим терміном «інцест», називають популяційну ситуацію, коли вид схрещується зі своїм власним потомством і не диверсифікує свій генофонд. Схрещування близькоспоріднених особин призводить до збільшення гомозиготності генотипу в їхнього потомства. Таким чином, інбридинг закріплює в потомстві різного роду шкідливі і навіть летальні гени.

 

МОДЕЛІ ВЧАТЬСЯ НА ПОМИЛКАХ І ЗДОГАДКАХ

 

Мовні моделі працюють, використовуючи асоціативні зв’язки між токенами — словами або частинами слів. Вони роблять це на основі величезного масиву текстів, які часто вивуджують з інтернету. Генеруючи текст, моделі спираються на статистично найвірогідніші поєднання і послідовності слів, знання про які отримані ними на основі навчання мовних шаблонів.

Колапс відбувається тому, що кожна модель робить обов’язкові вибірки тільки з тих даних, на яких вона навчалася. Це означає, що слова, які були рідкісними у вихідних даних, з меншою ймовірністю будуть відтворені. А ось імовірність повторення поширених слів збільшується.

Повний колапс зрештою відбувається тому, що кожна модель навчається не на реальності, а на «здогадках» — на передбаченні реальності попередньою моделлю. Помилки накладаються одна на одну і посилюються з кожною ітерацією. Згодом модель здебільшого починає вчитися тільки помилок і нічого більше.

 

ЗАКОНИ ПЕРЕСТАЮТЬ ПРАЦЮВАТИ?

 

Загальновизнані на сьогодні закони масштабування свідчать, що моделі мають ставати кращими в міру збільшення обсягу даних, на яких вони навчаються. Однак у реальності, у міру накопичення синтетичних даних в інтернеті, ці закони, найімовірніше, перестануть працювати. Ці дані для навчання втрачають свою цінність, оскільки втрачають насиченість і різноманітність, властиві контенту, створеному людиною.

 

ЯК УНИКНУТИ КОЛАПСУ: РЕАБІЛІТАЦІЯ ЛЮДИНИ-ТВОРЦЯ

 

Водночас науковці заспокоюють громадськість: крах моделі не означає, що LLM перестануть працювати зовсім. Просто вартість їхнього виробництва збільшиться. Розробникам доведеться придумати, як навчити моделі обмежувати використання синтетичних даних і відрізняти їх від реальних.

Дослідження показали: якщо поряд із синтетичними моделями використовується 10% реальних даних, колапс відбувається повільніше. Малоймовірний він і в тому випадку, коли синтетичні дані не замінюють реальні, а накопичуються разом із ними.

Також можливо, що в умовах дефіциту оригінального людського контенту суспільству доведеться знайти додаткові стимули для тих людей, які здатні його виробляти.

 

Оригінальне дослідження:

 


При копіюванні матеріалів розміщуйте активне посилання на www.huxley.media
Вступаючи до клубу друзів Huxley, Ви підтримуєте філософію, науку та мистецтво
Отримуйте свіжі статті

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: