Фото: businessfm.spb.ru
Когда мы слышим голос по телефону или радио, мы всегда представляем, как человек выглядит. Оказывается, этот процесс можно автоматизировать.
Ученые из MIT CSAIL придумали способ визуализировать внешность по речи. Для этого они используют нейросеть, которая обрабатывает миллионы видео на YouTube.
Нейросеть просмотрела записи более 100 тысяч людей. Она оценивала людей по языку, на котором они говорили, интонациям, произношению и акцентам.
Модель сравнивала речевые особенности с физическими характеристиками, например, возрастом, полом, этнической принадлежностью, которая выражается в определенном строении лица и форме губ. После этого программа получала аудио и пыталась изобразить тех, кому принадлежали голоса.
По словам авторов проекта, их цель — не вычислить конкретного человека, а скорее воссоздать примерные физические характеристики. Фактически нейросеть работает со статистикой, поэтому все лица получаются усредненными.
Авторы отмечают, что модель подвержена влиянию неравномерного распределения данных, как бывает с любой нейросетью. К примеру, если какой-то язык встречается достаточно редко, модель будет некорректно изображать людей из этого региона.
Кроме того, некоторые яркие черты никак не связаны с речью. Мы не можем угадать, есть у человека татуировка, в какой цвет он красит волосы и как одевается. Но если тысячи людей похоже говорят и при этом носят одинаковые прически, это повлияет на результат.
Несложно придумать практическое применение для такой программы. Например, модель могла бы визуализировать преступников, позвонивших по телефону.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.