Віртуальний Всесвіт, змодельований у суперкомпютері, може коштувати більше, ніж престижний автомобіль. Щоб перевірити одну-єдину гіпотезу про темну енергію чи масу нейтрино, космологам доводиться запускати тисячі таких симуляцій, кожна з яких «нарощує» галактики з нуля за різними фізичними законами. Тепер команда з Принстонського університету та Інституту Флетайрон знайшла спосіб скоротити цей обсяг роботи більш ніж у десять разів завдяки штучному інтелекту.
Але є несподіваний підступ.
Чим розумніший алгоритм і чим більше він уже знає про стандартну модель космосу, тим більший ризик, що він просто не помітить справжню революцію в фізиці. Це явище отримало назву «негативний трансфер», і саме воно стало головним відкриттям нового дослідження, опублікованого в Journal of Cosmology and Astroparticle Physics. Його автори кажуть: швидкість це чудово, але без обережності ШІ може проїхати повз найважливіше відкриття десятиліття.
Вдесятеро менше
Сучасна космологія спирається на модель ΛCDM. Вона успішно пояснює розширення Всесвіту, розподіл галактик і поведінку темної матерії на великих масштабах, але вчені впевнені: це не останнє слово. Спостереження останніх років натякають на цілий набір загадок, які можуть вказувати на нову фізику. Кожна з цих гіпотез вимагає власної серії компютерних симуляцій, де кожна окрема модель «вирощує» віртуальні галактики в кубічному кусочку космосу завширшки в мільярди світлових років.
Це захмарно дорого.
Одна повномасштабна космологічна симуляція може займати суперкомпютер на тижні. Зміна одного параметра скажімо, додавання маси нейтрино або зміна властивостей гравітації означає перерахунок усього з нуля. Коли мова йде про сотні чи тисячі моделей, необхідних для статистично значущого аналізу, вартість обчислень стає одним із головних барєрів на шляху до нових законів природи.
Саме тут на сцену виходить трансферне навчання техніка машинного навчання, яка дозволяє штучному інтелекту переносити знання з одного завдання на інше, рідне за змістом. Процес нагадує вивчення іноземної мови: якщо ви вже знаєте італійську, іспанська дасться набагато легше, ніж з нуля. Але саме тут криється небезпека іноді схожі слова мають протилежні значення, і ваш «досвід» змушує вас зрозуміти все навпаки.
Замість того щоб гнати нейромережу відразу на найскладніших і найдорожчих симуляціях, дослідники спочатку навчили її на простих моделях стандартного ΛCDM. Цей етап попереднє навчання дав алгоритму базове уявлення про те, як влаштований космос: де збирається темна матерія, як формуються кластери галактик, які сліди залишає гравітація. Лише потім команда підключила складніші моделі, що містять потенційно нову фізику.
- Масивні нейтрино частинки, які можуть пояснити, чому Всесвіт поводиться інакше, ніж передбачає стандартна модель
- Модифікована гравітація теорії, що переглядають самі закони тяжіння на космологічних масштабах
- Еволюція темної енергії гіпотеза, що таємнича сила, яка прискорює розширення космосу, змінюється з часом
«Це, по суті, коротший шлях, пояснює Адріан Баєр, космолог з Інституту Флетайрон та Принстонського університету, співавтор дослідження. Зазвичай люди навчають ШІ відразу на найобчислювально дорогих симуляціях. Ми замість цього спочатку використовуємо простіші та дешевші ΛCDM-моделі, щоб дати алгоритму уявлення про те, що відбувається, і лише потім переходимо до складніших».
Перший автор статті, студентка Принстона Віна Крішнарадж, додає: ця стратегія рятує ШІ від необхідності «перетравлювати все за раз». Результати вразили навіть досвідчених фізиків. У деяких випадках трансферне навчання скоротило кількість дорогих симуляцій більш ніж у десять разів. Для спільноти, де один прогін може тривати місяцями на найпотужніших кластерах, це не просто зручність це принципово змінює те, скільки гіпотез можна перевірити за фінансовий рік.
Підручник і рідкісна хвороба
Баєр любить порівнювати підхід з читанням книжок. Спочатку ви берете базовий підручник, щоб зрозуміти загальні принципи, а потім переходите до монографії для фахівців. Звучить ідеально доки ви не зустрінете рідкісну хворобу, яка на перший погляд виглядає точнісінько як звичайний грип. Ваш попередній досвід замість того, щоб допомогти, підштовхує до хибного діагнозу.
Саме це трапляється зі штучним інтелектом.
Деякі сигнатури нової фізики настільки схожі на вже знайомі патерни стандартної моделі, що навчений алгоритм починає інтерпретувати незнайому інформацію через призму старих знань. Він буквально не бачить нового тому що «знає» занадто багато. Це і є негативний трансфер: ситуація, коли попередній досвід не просто не допомагає, а активно заважає.
Дослідники спостерігали цей ефект під час аналізу симуляцій із масивними нейтрино. Частина спостережуваних ознак, повязаних із масою нейтрино, виявилася практично ідентичною змінам існуючого параметра ΛCDM під назвою σ8, який вимірює силу кластеризації матерії у Всесвіті. Через цю подібність попередньо навчена нейромережа спочатку не могла відрізнити один ефект від іншого. Вона «думала», що бачить знайомий σ8, тоді як насправді перед нею був зовсім інший фізичний процес.
«Негативний трансфер це не випадковість. Його спричиняють фізичні виродження в моделі, каже Віна Крішнарадж. Різні фізичні процеси можуть давати дуже схожі спостережувані сигнатури, і це ускладнює завдання для ШІ. Нам потрібно знати про це та намагатися помякшити ефект».
Пастка досвіду
Це відкриття ставить важливе питання: чи можуть концепції фундаментальних моделей, які лежать в основі сучасних генеративних алгоритмів і великих мовних моделей, безпечно застосовуватися у фундаментальній фізиці? Автори статті прямо зазначають: попереднє навчання прискорює обчислення, але водночас може «перешкоджати вивченню нової фізики». Це дилема, з якою зіткнуться не лише космологи, а й біологи, хіміки та кліматологи, які все активніше використовують ШІ для пошуку нових законів.
Проблема особливо гостра, коли мова йде про рідкісні явища. Стандартна модель пояснює приблизно 95% того, що ми бачимо в космосі. Але решта 5% саме там може ховатися ключ до розуміння темної енергії або природи нейтрино. І якщо ШІ буде систематично ігнорувати ці 5%, вважаючи їх «шумом» або варіацією відомого параметра, ми ризикуємо втратити революційне відкриття.
Команда вже працює над методами, які дозволять нейромережі «сумніватися» у власних висновках. Одна з ідей навчати алгоритм спеціально розпізнавати моменти, коли дані не вкладаються в знайомі шаблони, і сигналізувати про це вченим замість того, щоб примусово підганяти аномалію під відомий параметр. Це перетворює негативний трансфер з прихованої загрози на контрольований виклик.
Поки що метод перевірений лише на симуляціях, зокрема на даних проєкту Quijote одного з найбільших наборів космологічних моделей, створених для тренування машинного навчання. Наступний крок справжні астрономічні спостереження. І тут ставки зростають.
У найближчі роки заплановано кілька масштабних космологічних оглядів, які збиратимуть безпрецедентні обсяги високоточних даних про Всесвіт. Швидкість обробки стане критичною. Якщо вчені зможуть навчити ШІ ефективно шукати нові закони, не потрапляючи у пастку власних знань, це відкриє зовсім іншу швидкість досліджень. Економія в десять разів у масштабах майбутніх телескопів означає різницю між відкриттям, зробленим за життя одного покоління, і відкриттям, розтягнутим на століття.
Реальні зорі
Робота «Transfer Learning Beyond the Standard Model» автори Віна Крішнарадж, Адріан Баєр, Крістіан Краґ Єсперсен і Петер Мельхіор уже доступна в науковому журналі. Команда не приховує: попереду ще багато роботи, перш ніж алгоритм зустрінеться з реальними телескопами. Потрібно навчити мережу розпізнавати власні сліпі плями та ставити під сумнів власні «переконання».
Але ідея залишається вражаючою.
Ми живемо в епоху, коли штучний інтелект може читати підручники з космології швидше за будь-якого студента. Він запамятовує закономірності, які людський мозок просто не в змозі охопити. Головне навчити його розпізнавати момент, коли підручник раптом перестає працювати. Бо саме в цей момент, між відомою сторінкою і порожнім полем зору, народжується новий закон Всесвіту.