РЕВОЛЮЦІЯ В ШІ: про що не писали в газетах

Художня ілюстрація штучного інтелекту (ШІ). Це зображення показує, як мультимодальні моделі сприймають введення користувача і генерують висновок. Воно було створено Bakken & Baeck у рамках проєкту Visualising AI, запущеного Google DeepMind / Photo by Google DeepMind on Unsplash
Поточний рік обіцяє стати свідком не тільки безлічі досягнень, а й справжнісіньких битв у сфері розробок штучного інтелекту. За інформаційним ажіотажем можна легко не помітити того, що поволі змінює наш світ.
На жаль, далеко не одразу і далеко не всі дослідження та інновації в галузі ШІ стають надбанням широкої громадськості. Наприклад, майже непомітним для ЗМІ виявилося створення великої мовної моделі, для навчання якої не потрібні величезні масиви реальних даних.
МІЛЬЯРДИ ДЛЯ STARGATE
Н
е встиг 2025 рік розпочатися, а багато експертів уже характеризують його як визначальний для розвитку технологій штучного інтелекту.
Буквально через день після вступу на посаду президент США Дональд Трамп оголосив про старт Stargate — широкого міжнародного проєкту, в якому візьмуть участь провідні технологічні та фінансові компанії зі США, Японії та Об’єднаних Арабських Еміратів.
На спільні дослідження ці країни виділили колосальну суму — 500 мільярдів доларів США. Основна частина цих коштів піде на розвиток американської інфраструктури ШІ.
DEEPSEEK: «ПРОСУНУТИЙ І ДЕШЕВИЙ»
Було це простим збігом чи ні, але буквально наступного дня після повідомлення про запуск Stargate китайська компанія з Ханчжоу, що спеціалізується на дослідженні штучного інтелекту, оголосила про народження DeepSeek — нової великої мовної моделі (LLM).
Компанія продемонструвала, що для значного прориву в цій галузі можуть не знадобитися такі величезні суми, які були залучені в Stargate. У ранніх тестах продуктивність DeepSeek під час виконання завдань із хімії та математики відповідала продуктивності o1 LLM від американської компанії OpenAI. Однак версія DeepSeek-R1 виявилася вже здатна виконувати покрокові завдання, аналогічні людському мисленню.
Причому домогтися цього китайським розробникам вдалося не тільки «за копійки», а й задіюючи досить обмежені обчислювальні потужності вже наявних LLM. Новина про «дешевий, але просунутий» ШІ відправила в круте піке котирування акцій деяких технологічних компаній.
РЕВОЛЮЦІЯ, ЯКУ НЕ ПОМІТИЛИ
Існують різні бачення ШІ, які, ймовірно, визначатимуть його розвиток у майбутньому. Важливі дослідження, нові дані та плани в цій галузі продовжують публікуватися. Однак геть не всі вони потрапляють у заголовки видань. Хоча насправді заслуговують на найширшу суспільну дискусію.
Про одну з таких проривних робіт уже розповідав на початку поточного року міжнародний науковий журнал Nature. Але в тіні політично заангажованого інформаційного мейнстриму новина пройшла непоміченою провідними ЗМІ.
Йдеться про «точні прогнози на основі малих даних із табличною моделлю фундаменту». За словами одного з рецензентів цієї розробки, Дункана МакЕлфреша, інженера з даних у Stanford Health Care, нова технологія може стати революційною для науки про дані.
НАВЧАННЯ НА «СИНТЕТИЧНИХ ДАНИХ»
Найвідоміші LLM попередньо навчені на сотнях мільярдів прикладів реальних даних, як-от текст і зображення. Це дає їм змогу відповідати на запити користувачів із певним ступенем надійності. Але що, як у вас реальні дані в необхідних кількостях відсутні? Чи можна навчити ШІ давати надійні відповіді на меншій кількості наборів даних?
Це ключова проблема для дослідників, які використовують ШІ для прогнозування на основі табличних наборів даних — їх навіть близько немає в необхідній для навчання моделей кількості. Проте вчені знайшли можливість досягти надійних результатів, навчаючи моделі ШІ не на реальних, а на випадково згенерованих «синтетичних даних», які імітують статистичні властивості даних реальних.
РЕАЛЬНИЙ СВІТ БІЛЬШЕ НЕ ПОТРІБЕН?
Автори цієї розробки — комп’ютерні вчені Ной Холлман, Самуель Мюллер і Франк Хуттер з німецького Університету Фрайбурга. Їхня модель називається TabPFN і призначена для аналізу табличних даних. До прикладу, таких, що містяться в електронних таблицях.
Зазвичай користувач створює їх, заповнюючи рядки й стовпці даними. На їхній основі, використовуючи математичні моделі, він робить висновки або проєкції. TabPFN може здійснювати прогнози на основі будь-якого, навіть найнезначнішого набору даних. Починаючи від тих, які використовуються в бухгалтерському обліку та фінансах, і закінчуючи даними, які застосовують у геноміці та нейронауці.
Найдивовижніше, що прогнози моделі виявляються точними, незважаючи на те, що вона навчається без даних з реального світу. Їх їй замінюють 100 мільйонів випадково згенерованих наборів даних. Виходить, що відносну повноту реальності вона здатна відновлювати за «фрагментом».
ЯК ЗЛАМАТИ «ЧОРНУ СКРИНЬКУ»?
Звичайно, ця модель, так само, як і всі інші, не застрахована від неточних результатів або галюцинацій. Синтетичні дані не позбавлені ризиків, тому важливо, щоб дослідження в цій галузі були відтворюваними. Це покаже користувачам, що отриманим результатам можна довіряти.
Робота Холлмана та його колег є прикладом того, як необхідність стимулює інновації: дослідники зрозуміли, що для навчання їхньої моделі недостатньо доступних наборів даних із реального світу. І тоді вони знайшли альтернативний підхід.
Залишається фактом, що всі моделі ШІ, незалежно від того, чи навчені вони на синтетичних, чи на реальних даних, як і раніше, залишаються свого роду «чорними скриньками». Користувачі та регулюючі органи й гадки не мають, як досягається результат.
2025 рік обіцяє нам захопливі розробки, не забуваймо про дослідження, які покликані зрозуміти, як працює ШІ, а також про методичні статті. Вони так само важливі, як і публікації, що оголошують про прориви.
Оригінальне дослідження:
При копіюванні матеріалів розміщуйте активне посилання на www.huxley.media
Виділіть текст і натисніть Ctrl + Enter