Штучний інтелект навчили дивитися на світ очима дітей

Поділитись матеріалом

Арт-оформлення: huxley.media via Photoshop

У Нью-Йоркському університеті провели незвичайний експеримент. За допомогою легкої камери, закріпленої на голові малюка, записували на відео процес його навчання та виховання. Після цієї зорової та слухової інформації, отриманої від дитини, науковці почали навчати «з нуля» модель штучного інтелекту. Що ж показало навчання людської мови реального та нейромережевого немовляти?

ШІ ТА ДІТИ НАВЧАЮТЬСЯ ПО-РІЗНОМУ

Системи штучного інтелекту, як-от GPT-4, вміють «навчатися». Але роблять вони це на недоступних людині астрономічних обсягах мовного введення. Звісно, масиви цих даних непорівнянні з тими, які в реальному житті отримує маленька дитина, коли намагається освоювати мову, розуміти її та говорити нею.

ШІ навчається на тексті, кількість слів якого обчислюється трильйонами, а дитина чує лише кілька мільйонів слів на рік. Саме через цю відмінність більшість науковців вважали, що, попри всі свої досягнення, ШІ не в змозі дати адекватне уявлення про те, як насправді відбувається процес навчання й розвитку людини.

Науковці Нью-Йоркського університету вирішили усунути цю прикру несправедливість і зрівняти шанси малюка та ШІ. Якщо малюкові, який освоює мову, не під силу навчатися на масивних даних з інтернету, то інформацію для навчання ШІ цілком можна обмежити тільки тими вхідними даними, які із зовнішнього світу отримує дитина.

Проте чи здатна модель ШІ вивчати слова й поняття, які присутні в повсякденному житті дитини? Це якраз і спробували з’ясувати вчені під час експерименту.

ЗВ’ЯЗОК МОВИ З РЕАЛЬНІСТЮ

Процес навчання одного малюка записувався щотижня, починаючи з піврічного віку і протягом наступних 25 місяців. У результаті вийшло понад 60 годин відеоматеріалів, які містили приблизно 250 000 слів, багато з яких повторювалися.

Природно, що всі слова, вимовлені під час прийому їжі, читання, ігор тощо, були пов’язані з тим візуальним рядом, який дитина бачила та чула. Потім на основі цих відеозаписів дослідники почали навчати систему штучного інтелекту з двома різними модулями.

Перший — зоровий кодер, що приймав окремі відеокадри. Другий — мовний кодер, який сприймав розшифровану мову, звернену до дитини. Ці два модулі були об’єднані за допомогою алгоритмів, що дають змогу формувати уявлення про крос-модальні асоціації, які виникають під час введення даних.

Вступаючи до клубу друзів Huxleў, Ви підтримуєте філософію, науку та мистецтво

Приєднатися до клубу друзів

КОНТРАСТНЕ НАВЧАННЯ

Річ у тім, що під час спілкування батьків і дитини відбувається те, що називають «контрастним навчанням», — розуміння досягається шляхом зв’язування візуальних та мовних сигналів, які малюк намагається співвіднести один з одним. За таким же принципом було побудовано і навчання ШІ — модель отримувала уявлення про те, які слова мають бути пов’язані з якими об’єктами.

Зокрема, моделі пропонували співвіднести кожне слово з одним із чотирьох варіантів зображень. Виявилося, що модель, котра отримала назву «Погляд дитини на контрастне навчання» (CVCL в англійській абревіатурі), цілком здатна на це.

CVCL у змозі вивчити значну кількість слів і понять, присутніх у повсякденному житті дитини. Ба більше, деякі слова, які вивчила модель, є узагальненням візуальних прикладів, що не були присутні в навчанні. Цей ефект також спостерігається у дітей, коли вони проходять тестування в лабораторії.

МИ ОТРИМУЄМО БІЛЬШЕ, НІЖ ЗДАЄТЬСЯ

Результати, опубліковані в останньому випуску журналу Science, говорять про те, що мозок і нейромережі багато в чому схожі. Штучний інтелект може вивчити мову на рівні дитини, використовуючи дані, які бачив і чув малюк за 1,5 року життя.

При цьому потрібно врахувати, що нейромережа отримувала фрагментарний досвід дитячого осягнення світу. Відео фіксувало лише 1% часу, протягом якого дитина не спала. Але й цього виявилося достатньо, щоб вивчення мови ШІ тривало успішно. Вчені вважають, що подібні дослідження можуть змінити наше розуміння раннього засвоєння дітьми слів і понять.

Приблизно у віці від 6 до 9 місяців діти починають формувати свій словниковий запас, пов’язуючи вимовлені слова з їхніми візуальними аналогами. Яке місце в цьому процесі посідають вроджені здібності, асоціативне навчання та індуктивні упередження, характерні для мови?

На думку одного з авторів статті, доцента Брендена Лейка, експеримент із нейромережею показав, що, «просто навчаючись», ми отримуємо більше, ніж зазвичай думають.

Оригінальні дослідження:

AI Learns Through the Eyes and Ears of a Child
Grounded language acquisition through the eyes and ears of a single child

При копіюванні матеріалів розміщуйте активне посилання на www.huxley.media

наука штучний інтелект