Huxley
Автор: Huxley
© Huxley — альманах о философии, бизнесе, искусстве и науке

НЕЙРОСЕТЬ ВОССОЗДАЕТ ПОРТРЕТЫ ПО ГОЛОСУ

НЕЙРОСЕТЬ ВОССОЗДАЕТ ПОРТРЕТЫ ПО ГОЛОСУ
Фото: businessfm.spb.ru

 

Когда мы слышим голос по телефону или радио, мы всегда представляем, как человек выглядит. Оказывается, этот процесс можно автоматизировать.

Ученые из MIT CSAIL придумали способ визуализировать внешность по речи. Для этого они используют нейросеть, которая обрабатывает миллионы видео на YouTube.

Нейросеть просмотрела записи более 100 тысяч людей. Она оценивала людей по языку, на котором они говорили, интонациям, произношению и акцентам.

Модель сравнивала речевые особенности с физическими характеристиками, например, возрастом, полом, этнической принадлежностью, которая выражается в определенном строении лица и форме губ. После этого программа получала аудио и пыталась изобразить тех, кому принадлежали голоса.

По словам авторов проекта, их цель — не вычислить конкретного человека, а скорее воссоздать примерные физические характеристики. Фактически нейросеть работает со статистикой, поэтому все лица получаются усредненными.

Авторы отмечают, что модель подвержена влиянию неравномерного распределения данных, как бывает с любой нейросетью. К примеру, если какой-то язык встречается достаточно редко, модель будет некорректно изображать людей из этого региона.

Кроме того, некоторые яркие черты никак не связаны с речью. Мы не можем угадать, есть у человека татуировка, в какой цвет он красит волосы и как одевается. Но если тысячи людей похоже говорят и при этом носят одинаковые прически, это повлияет на результат.

Несложно придумать практическое применение для такой программы. Например, модель могла бы визуализировать преступников, позвонивших по телефону.

 

Вступая в клуб друзей Huxley, Вы поддерживаете философию, науку и искусство

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Получайте свежие статьи

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: