В ПЛЕНУ ЦИФРОВОЙ ИЛЛЮЗИИ: ИИ тормозит научный прогресс специально?

Photo by Mathew Schwartz on Unsplash

По этому поводу бьет тревогу научный журнал Nature. Историки науки давно подметили, что скорость значимых научных открытий и их масштабы в последние десятилетия неуклонно снижались. Хотя при этом финансирование, количество публикаций и персонала, наоборот, росло. На этом фоне изрядную долю оптимизма научному сообществу добавили открытия в области ИИ. Но теперь ученые снова встревожены: растущая роль искусственного интеллекта в науке может принести больше вреда, чем пользы.

ИИ УХУДШАЕТ МЕТОДЫ СТАТИСТИКИ?

С 2012 по 2022 год средняя доля научных работ, посвященных использованию искусственного интеллекта в 20 ведущих научных областях, увеличилась в 4 раза. Его стали широко использовать при прогнозировании очень многого: результатов внедрения экономических моделей, влияния вспышек заболеваний, гражданских войн… Однако у этого ажиотажа были определенные последствия. Статистические методы как таковые несвободны от серьезных ошибок.

ИИ добавляет к ним еще большие риски из-за своей «природы черного ящика». Эти ошибки еще больше усугубляются, когда готовые инструменты используются учеными, имеющими ограниченные знания в области компьютерных наук. Люди очень легко переоценивают возможности моделей ИИ, и эта переоценка фатальным образом сказывается на прогнозировании, поскольку создает иллюзию прогресса и тормозит реальные достижения.

БЕНЗОПИЛЫ ВМЕСТО ТОПОРОВ

Существует множество способов использования ИИ в науке. Например, для эффективного анализа работ, созданных естественным человеческим интеллектом. Один из способов применения ИИ в науке — машинное обучение. Его можно рассматривать как усовершенствование традиционного статистического моделирования. Если привычная ручная статистика — это топор, то моделирование машинного обучения — бензопила. Этот автоматизированный инструмент, бесспорно, мощный, но при неправильном использовании очень опасный и травматичный. Поэтому именно моделирование, при котором для прогнозирования или проверки гипотез используется ИИ, вызывает наибольшие опасения.

«УТЕЧКА» ДЕЛАЕТ МОДЕЛИ БЕСПОЛЕЗНЫМИ

Один из наиболее распространенных источников ошибок — так называемая «утечка». Это проблема возникает, когда модель машинного обучения запоминает закономерности данных оценки, а не закономерности интересующего ученых явления. Недавно обнаружилось, что статьи по меньшей мере в 30 научных областях, в которых использовалось машинное обучение, пострадали от такой «утечки».

Ошибки, порожденные ИИ, содержит масса научных работы — от психиатрии и молекулярной биологии до компьютерной безопасности. Например, во время пандемии COVID-19 сотни исследований утверждали, что ИИ может диагностировать заболевание, используя только рентген грудной клетки или КТ. И только 62 из 415 таких исследований соответствовали основным стандартам качества.

Но даже в этих 62 были широко распространены некорректные методы оценки, дублирование данных и неразбериха в диагностике. Примерно в 12 работах ученые использовали обучающий набор данных, в котором все положительные случаи COVID были у взрослых, а отрицательные — у детей в возрасте от 1 до 5 лет. В результате модель ИИ просто научилась различать взрослых и детей по этому признаку. Но ведь исследователи претендовали на то, что разработали детектор COVID-19!

КРИЗИС ВОСПРОИЗВОДИМОСТИ

Увы, у оценки точности прогнозирования нет стандартов. По крайней мере, пока. Базы компьютерных кодов — это тысячи строк, потому ошибки трудно обнаруживать. А цена даже одной из них может быть чрезвычайно велика. Таким образом, мы находимся лишь в самом начале кризиса воспроизводимости в науке, основанной на машинном обучении. Но он может разрастись до немалых масштабов. Скажем, сейчас стало популярным использование больших языковых моделей в качестве суррогатов для участников психологических экспериментов. Большинство их оказываются невоспроизводимыми, поскольку эти модели чувствительны даже к самым незначительным изменениям входных данных.

В ПЛЕНУ САМООБМАНА

Победное вторжение машинного обучения в науку — это всего лишь форма самообмана. Дело в том, что поток открытий, сделанный с помощью ИИ, даже если они не содержат ошибок, может не привести к настоящему научному прогрессу. Впервые на это обратил внимание еще в 2001 году Лео Брейман, который описал культурные и методологические различия между областями статистики и машинного обучения. Но общественное мнение предпочло иметь дело с красивой утопической мечтой, а не с реальностью.

Пропагандисты ИИ до сих пор предпочитают упоминать только о его возможностях, а не о давно известных и при том существенных ограничениях машинного обучения. Брейман доказывал, что основанные на нем модели могут неплохо работать в инженерии, но с трудом применимы в естественных науках, смыслом которых является объяснение природы. Увы, ИИ вряд ли может здесь что-либо «объяснить», не выдав при этом ошибку. Но слишком много исследователей, соблазнившись коммерческим успехом ИИ, игнорируют это ограничение.

ИИ — ТОРМОЗ НАУЧНОГО ПРОГРЕССА

Причина проста: чтобы использовать результаты работы моделей для получения сведений об окружающем мире, требуется много труда. Причем со стороны естественного, а не искусственного интеллекта. Инструментарий машинного обучения всего лишь упрощает построение моделей, а вот извлечение из них реальных знаний о мире, наоборот, затрудняет.

В итоге мы производим больше научного контента при все меньшем понимании мира. И тут возникает благодатная почва для конспирологов: а может быть, «черный ящик» делает это специально? Хотя, если отвлечься от апокалиптической фантастики, придется признать, что в сложившейся ситуации человек виноват сам.

В какой-то момент мы начали неправильно смотреть на саму науку — как на механический набор фактов или открытий. На самом деле научный прогресс происходит иначе. Без объяснительной функции человеческого мышления он не работает. Наука движется от открытий к теориям и парадигмам, которые являются концептуальными инструментами для понимания и исследования. На этом пути научные представления становятся более абстрактными и неподдающимися автоматизации. Именно поэтому быстрое распространение научных открытий, основанных на ИИ, не ускоряет, а тормозит научный прогресс.

«КОЛЕЯ», ВЕДУЩАЯ В ТУПИК

Только не подумайте, что это такое уж необычное явление! История науки изобилует подобными примерами: от алхимии — до химии, от астрономии — до коперниковской революции, от геологии — до тектоники плит. Целые научные области не раз и подолгу застревали в накатанной «колее». И она нередко вела ученых в тупик, даже если они преуспевали в достижении отдельных результатов. В истории астрономии, к примеру, видное место занимает представление об «эпициклах». Согласно ему планеты движутся по окружностям вокруг Земли.

Эта модель была довольно точной в своих предсказаниях планетарных движений. И даже после того как она перестала соответствовать научным знаниям, современные проекторы планетариев используют именно этот метод для вычисления траекторий. ИИ — это современный эквивалент описанных выше эпициклов. Возможно, их способность выжимать больше предсказательной силы из несовершенных теорий и неадекватных парадигм поможет им довольно долго держаться на плаву. Но чем дольше это будет происходить, тем больше ИИ будет препятствовать истинному научному прогрессу.

КАК ИЗБЕЖАТЬ ИЛЛЮЗИИ ПРОГРЕССА?

Ответ на этот вопрос содержится в честном научном диалоге. В качестве отправных точек для его начала могут быть предложены следующие тезисы.

Машинное обучение — это не готовая к использованию технология для ученых, а всего лишь набор инструментов. И применение этих инструментов требует глубоких знаний, изучения количественных методов и хотя бы типовых ловушек и ограничений. Необходимо более тесное сотрудничество между экспертами в предметной области и специалистами по машинному обучению.

Возможно, нужно найти способы, при которых не сами исследователи оценивали бы собственную работу. Поскольку результатов, основанных на ИИ, огромное количество, существует потребность в синтетических методах, которые охватывают различные формы анализа.

И, наконец, финансирующие науку организации должны ориентироваться на качество, а не на количество, стимулируя воспроизводимость — проверку и повторение результатов другими исследователями, а также синтез доказательств — объединение данных из разных источников для более надежных выводов.

Кто окажется сильнее, соблазнительная иллюзия «черного ящика» или наука и здравый смысл, покажет время…

Оригинальные исследования: