Языковые приложения способны генерировать довольно убедительные тексты, а чат-боты успешно используются многими магазинами, банками и учреждениями.
На первый взгляд кажется, что системы распознавания естественных языков шагнули далеко вперед. Однако специалисты Института искусственного интеллекта Аллена говорят, что искусственный интеллект даже близко не подошел к настоящему пониманию текстов.Для того, чтобы оценить, насколько ИИ осознает значение прочитанного, используется Winograd Schema Challenge. Этот тест был создан в 2011 году. В нем 273 задания, каждое из которых содержит по два предложения, которые отличаются одним словом.
Например: «Трофей не помещается в коричневый чемодан, потому что он слишком большой. Трофей не помещается в коричневый чемодан, потому что он слишком маленький». Задача в том, чтобы понять, к какому из слов относится местоимение «он». Для человека ответ очевиден: в первом случае — трофей, во втором — чемодан.
Для ИИ это довольно сложная задача, которую, как считалось, невозможно решить без понимания смысла. Однако современные программы способны сделать это с точностью 90%. Но значит ли это, что в распознавании естественных языков достигнут небывалый прогресс?
Исследователи создали новый тест — WinoGrande, который содержит 44 тысячи вопросов. Все они были собраны вручную работниками Amazon Mechanical Turk. Тест обкатали на людях и оставили только те задания, которые правильно решили хотя бы две трети людей, ответы посчитали однозначными, а местоимения нельзя было подобрать на основе простых ассоциаций слов.
Люди отвечали с точностью 94%, а программы — от 60% до 80%. То есть более сложный тест отбросил ИИ далеко назад.
То, что системы распознавания естественного языка несложно обмануть, доказывает и другой эксперимент. Программа TextFooler меняет значимые члены предложения на синонимы.
Пример: «Персонажи, оказавшиеся в невероятно надуманных ситуациях, полностью отчуждены от реальности» и «Персонажи, оказавшиеся в невероятно искусственных обстоятельствах, отчуждены от реальности». Для читателя здесь нет особой разницы, а для программы — есть. Нейронная сеть Google BERT сразу же снизила эффективность в 5-7 раз.
Почему это важно? Изменив буквально несколько пикселей, можно обмануть системы распознавания изображений и, например, пройти валидизацию на сайте. Программа TextFooler доказывает, что так же можно перехитрить и искусственный интеллект помощников вроде Siri, Alexa и Google Home, а также классификаторы языков, детекторы ненависти и спам-фильтры. В то же время исследователи считают, что TextFooler, указывая на недостатки ИИ, позволит лучше обучить существующие программы.