У ПОЛОНІ ЦИФРОВОЇ ІЛЮЗІЇ: ШІ гальмує науковий прогрес навмисно?

Photo by Mathew Schwartz on Unsplash

З цього приводу б’є на сполох науковий журнал Nature. Історики науки давно помітили, що швидкість значущих наукових відкриттів та їх масштаби останніми десятиліттями неухильно знижувалися. Хоча при цьому фінансування, кількість публікацій і персоналу, навпаки, зростали. На цьому тлі значну частку оптимізму науковій спільноті додали відкриття у галузі ШІ. Однак тепер вчені знову стурбовані: зростаюча роль штучного інтелекту в науці може принести більше шкоди, ніж користі.

ШІ ПОГІРШУЄ МЕТОДИ СТАТИСТИКИ?

З 2012 до 2022 року середня частка наукових робіт, присвячених використанню штучного інтелекту в 20 провідних наукових галузях, збільшилася у 4 рази. Його стали широко використовувати при прогнозуванні дуже багатьох речей: результатів впровадження економічних моделей, впливу спалахів захворювань, громадянських воєн… Однак цей ажіотаж мав певні наслідки. Статистичні методи як такі не вільні від суттєвих помилок.

ШІ додає до них ще більші ризики через свою «природу чорного ящика». Ці помилки ще більше посилюються, коли готові інструменти використовуються вченими, які мають обмежені знання в галузі комп’ютерних наук. Люди дуже легко переоцінюють можливості моделей ШІ, і ця переоцінка фатально позначається на прогнозуванні, оскільки створює ілюзію прогресу й гальмує реальні досягнення.

БЕНЗОПИЛИ ЗАМІСТЬ СОКИР

Існує безліч способів використання ШІ в науці. Наприклад, для ефективного аналізу робіт, створених природним людським інтелектом. Один із способів застосування ШІ в науці — машинне навчання. Його можна розглядати як вдосконалення традиційного статистичного моделювання. Якщо звична ручна статистика — це сокира, то моделювання машинного навчання — бензопила. Цей автоматизований інструмент, безперечно, потужний, але при неправильному використанні дуже небезпечний і травматичний. Тому саме моделювання, при якому для прогнозування або перевірки гіпотез використовується ШІ, викликає найбільші побоювання.

«ВИТІК» РОБИТЬ МОДЕЛІ НЕКОРИСНИМИ

Одне з найпоширеніших джерел помилок — так званий «витік». Ця проблема виникає, коли модель машинного навчання запам’ятовує закономірності даних оцінки, а не закономірності явища, що цікавить учених. Нещодавно виявилося, що статті щонайменше в 30 наукових галузях, в яких використовувалося машинне навчання, постраждали від такого «витоку».

Помилки, породжені ШІ, містяться в безлічі наукових робіт — від психіатрії та молекулярної біології до комп’ютерної безпеки. Приміром, під час пандемії COVID-19 сотні досліджень стверджували, що ШІ може діагностувати захворювання, використовуючи тільки рентген грудної клітки або КТ. І лише 62 з 415 таких досліджень відповідали основним стандартам якості.

Та навіть у цих 62 були поширені некоректні методи оцінки, дублювання даних і плутанина в діагностиці. Приблизно в 12 роботах вчені використовували навчальний набір даних, в якому всі позитивні випадки COVID були у дорослих, а негативні — у дітей віком від 1 до 5 років. Врешті модель ШІ просто навчилася розрізняти дорослих і дітей за цією ознакою. Але ж дослідники претендували на те, що розробили детектор COVID-19!

КРИЗА ВІДТВОРЮВАНОСТІ

На жаль, в оцінки точності прогнозування немає стандартів. Принаймні, поки що. Бази комп’ютерних кодів — це тисячі рядків, тому помилки важко виявити. А ціна навіть однієї з них може бути надзвичайно великою. Таким чином, ми знаходимося лише на самому початку кризи відтворюваності в науці, заснованій на машинному навчанні. Але вона може розростися до чималих масштабів. Скажімо, зараз стало популярним використання великих мовних моделей як сурогатів для учасників психологічних експериментів. Більшість із них виявляються не відтворюваними, оскільки ці моделі чутливі навіть до найнезначніших змін вхідних даних.

У ПОЛОНІ САМООБМАНУ

Переможне вторгнення машинного навчання в науку — це лише форма самообману. Справа в тому, що потік відкриттів, зроблених за допомогою ШІ, навіть якщо вони не містять помилок, може не привести до справжнього наукового прогресу. Вперше на це звернув увагу ще в 2001 році Лео Брейман, який описав культурні та методологічні відмінності між галузями статистики та машинного навчання. Але громадська думка вважала за краще мати справу з красивою утопічною мрією, а не з реальністю.

Пропагандисти ШІ досі вважають за краще згадувати тільки про його можливості, а не про давно відомі і при тому істотні обмеження машинного навчання. Брейман доводив, що засновані на ньому моделі можуть непогано працювати в інженерії, але важко застосовні в природничих науках, сенсом яких є пояснення природи. На жаль, ШІ навряд чи може тут щось «пояснити», не видавши при цьому помилку. Але занадто багато дослідників, спокусившись комерційним успіхом ШІ, ігнорують це обмеження.

ШІ — ГАЛЬМО НАУКОВОГО ПРОГРЕСУ

Причина проста: щоб використовувати результати роботи моделей для отримання відомостей про навколишній світ, потрібно багато праці. Причому з боку людського, а не штучного інтелекту. Інструментарій машинного навчання лише спрощує побудову моделей, а ось витяг з них реальних знань про світ, навпаки, ускладнює.

У підсумку ми виробляємо більше наукового контенту при щодалі меншому розумінні світу. І тут виникає благодатний ґрунт для конспірологів: а може, «чорний ящик» робить це навмисно? Хоча, якщо відволіктися від апокаліптичної фантастики, доведеться визнати, що в ситуації, яка склалася, людина винна сама.

В якийсь момент ми почали невірно дивитися на саму науку — як на механічний набір фактів або відкриттів. Насправді науковий прогрес відбувається інакше. Без пояснювальної функції людського мислення він не працює. Наука рухається від відкриттів до теорій і парадигм, які є концептуальними інструментами для розуміння й дослідження. На цьому шляху наукові уявлення стають більш абстрактними і не піддаються автоматизації. Саме тому швидке поширення наукових відкриттів, заснованих на ШІ, не прискорює, а гальмує науковий прогрес.

«КОЛІЯ», ЩО ВЕДЕ У ГЛУХИЙ КУТ

Тільки не думайте, що це таке вже незвичайне явище! Історія науки рясніє подібними прикладами: від алхімії — до хімії, від астрономії — до копернікової революції, від геології — до тектоніки плит. Цілі наукові галузі не раз і надовго застрягали в накатаній «колії». І вона нерідко вела вчених у глухий кут, навіть якщо вони досягали окремих результатів. В історії астрономії, наприклад, чільне місце посідає уявлення про «епіцикли». Згідно з ним планети рухаються по колах навколо Землі.

Ця модель була досить точною в своїх передбаченнях планетарних рухів. І навіть після того, як вона перестала відповідати науковим знанням, сучасні проєктори планетаріїв використовують саме цей метод для обчислення траєкторій. ШІ — це сучасний еквівалент описаних вище епіциклів. Можливо, їх здатність вичавлювати більше прогностичної сили з недосконалих теорій та неадекватних парадигм допоможе їм досить довго триматися на плаву. Але що довше це буде відбуватися, то більше ШІ буде перешкоджати справжньому науковому прогресу.

ЯК УНИКНУТИ ІЛЮЗІЇ ПРОГРЕСУ?

Відповідь на це запитання міститься у чесному науковому діалозі. Як відправні точки для його початку можуть бути запропоновані такі тези.

Машинне навчання — це не готова до використання технологія для науковців, а лише набір інструментів. І застосування цих інструментів вимагає глибоких знань, вивчення кількісних методів і хоча б типових пасток та обмежень. Необхідна більш тісна співпраця між експертами в предметній області та фахівцями з машинного навчання.

Можливо, потрібно знайти способи, за яких не самі дослідники оцінювали б власну роботу. Оскільки результатів, заснованих на ШІ, величезна кількість, існує потреба в синтетичних методах, які охоплюють різні форми аналізу.

І, нарешті, організації, що фінансують науку, мусять орієнтуватися на якість, а не на кількість, стимулюючи відтворюваність — перевірку й повторення результатів іншими дослідниками, а також синтез доказів — об’єднання даних з різних джерел для більш надійних висновків.

Хто виявиться сильнішим, спокуслива ілюзія «чорного ящика» чи наука та здоровий глузд, покаже час…

Оригінальні дослідження: