ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НАУЧИЛИ СМОТРЕТЬ НА МИР ГЛАЗАМИ ДЕТЕЙ

Арт-оформление: huxley.media via Photoshop

В Нью-Йоркском университете провели необычный эксперимент. С помощью легкой камеры, закрепленной на голове малыша, записывали на видео процесс его обучения и воспитания. После этой зрительной и слуховой информации, полученной от ребенка, ученые начали обучать «с нуля» модель искусственного интеллекта. Что же показало обучение человеческому языку реального и нейросетевого младенца?

ИИ И ДЕТИ УЧАТСЯ ПО-РАЗНОМУ

Системы искусственного интеллекта, такие как GPT-4, умеют «учиться». Но делают они это на недоступных человеку астрономических объемах языкового ввода. Естественно, массивы этих данных несопоставимы с теми, которые в реальной жизни получает маленький ребенок, когда пытается осваивать язык, понимать его и говорить на нем.

ИИ обучается на тексте, количество слов которого исчисляется триллионами, а ребенок слышит всего лишь несколько миллионов слов в год. Именно из-за этого различия большинство ученых полагали, что, несмотря на все свои достижения, ИИ не способен дать адекватное представление о том, как на самом деле происходит процесс обучения и развития человека.

Ученые Нью-Йоркского университета решили устранить эту досадную несправедливость и уравнять шансы малыша и ИИ. Если малышу, осваивающему язык, не под силу обучаться на массивных данных из интернета, то информацию для обучения ИИ вполне можно ограничить только теми входными данными, которые из внешнего мира получает ребенок.

Но способна ли модель ИИ изучать слова и понятия, которые присутствуют в повседневной жизни ребенка? Это как раз и попытались выяснить ученые в ходе эксперимента.

СВЯЗЬ ЯЗЫКА С РЕАЛЬНОСТЬЮ

Процесс обучения одного малыша записывался еженедельно, начиная с полугодичного возраста и в течение последующих 25 месяцев. В результате получилось более 60 часов видеоматериалов, которые содержали примерно 250 000 слов, многие из которых повторялись.

Естественно, что все слова, произносимые во время приема пищи, чтения, игр и т. д., были связаны с тем визуальным рядом, который ребенок видел и слышал. Затем на основе этих видеозаписей исследователи начали обучать систему искусственного интеллекта с двумя разными модулями.

Первый — зрительный кодер, который принимал отдельные видеокадры. Второй — языковой кодер, воспринимавший расшифрованную речь, обращенную к ребенку. Эти два модуля были объединены с помощью алгоритмов, позволяющих формировать представление о кросс-модальных ассоциациях, возникающих при вводе данных.

Вступая в клуб друзей Huxley, Вы поддерживаете философию, науку и искусство

Присоединиться к клубу друзей

КОНТРАСТНОЕ ОБУЧЕНИЕ

Дело в том, что во время общения родителя и ребенка происходит то, что называют «контрастным обучением», — понимание достигается путем связывания визуальных и языковых сигналов, которые малыш пытается соотнести друг с другом. По такому же принципу было построено и обучение ИИ — модель получала представление о том, какие слова должны быть связаны с какими объектами.

В частности, модели предлагали соотнести каждое слово с одним из четырех вариантов изображений. Оказалось, что модель, получившая название «Взгляд ребенка на контрастное обучение» (CVCL в английской аббревиатуре), вполне способна на это.

CVCL в состоянии выучить значительное количество слов и понятий, присутствующих в повседневной жизни ребенка. Более того, некоторые слова, которые выучила модель, являются обобщением визуальных примеров, которые не присутствовали в обучении. Этот эффект также наблюдается у детей, когда они проходят тестирование в лаборатории.

МЫ ПОЛУЧАЕМ БОЛЬШЕ, ЧЕМ КАЖЕТСЯ

Результаты, опубликованные в последнем выпуске журнала Science, говорят о том, что мозг и нейросети во многом похожи. Искусственный интеллект может выучить язык на уровне ребенка, используя данные, которые видел и слышал малыш за 1,5 года жизни.

При этом нужно учесть, что нейросеть получала фрагментарный опыт детского постижения мира. Видео фиксировало всего лишь 1% времени, в течение которого ребенок бодрствовал. Но и этого оказалось достаточно, чтобы изучение языка ИИ шло успешно. Ученые считают, что подобные исследования могут изменить наше понимание раннего усвоения детьми слов и понятий.

Примерно в возрасте от 6 до 9 месяцев дети начинают формировать свой словарный запас, связывая произнесенные слова с их визуальными аналогами. Какое место в этом процессе занимают врожденные способности, ассоциативное обучение и индуктивные предубеждения, характерные для языка?

По мнению одного из авторов статьи, доцента Брендена Лейка, эксперимент с нейросетью показал, что, «просто обучаясь», мы получаем больше, чем обычно думают.

Оригинальные исследования: