Від думкового експерименту до нового світу

Чи замислювалися ви, звідки походить ШІ, який ми використовуємо щодня, наприклад, голосові помічники в телефонах, алгоритми рекомендацій, або навіть нещодавно популярний ChatGPT? Багато хто вважає, що ШІ — це якесь геніальне відкриття, зроблене в лабораторії. Але правда набагато цікавіша. ШІ не є ізольованим винаходом, це скоріше естафета думок, що триває майже століття. Його початок навіть не в рядку коду, а в глибокому філософському питанні: "Чи може машина думати?" Це питання, як камінь, кинутий у спокійну поверхню озера, викликало хвилі серед найкращих умів поколінь. З того часу філософи, математики, інженери, психологи... безліч піонерів занурилися в цю справу: хтось визначив його назву, хтось проклав шлях, хтось витримав зиму, а хтось сьогодні розкрив його енергію. У цій статті ми змінимо перспективу і через 10 найпредставніших особистостей пов'яжемо ключові поворотні моменти ШІ від 0 до 1. Ви побачите:

як велика мрія була "названа" і "визначена".
як дві технологічні лінії "символізму" та "конекціонізму" зіштовхнулися та злилися.
як три "батьки глибокого навчання" витримали зиму і врешті-решт привели до відродження цілої галузі.

Нехай "інтелект" перейде з філософії в науку

Будь-яка велика технологічна революція зазвичай не починається з конкретного винаходу, а з вражаючого питання. Штучний інтелект (ШІ) особливо підпадає під це визначення. Його історія не починається з гуркотливих машин або магічного коду, а з геніального математика, який на папері поставив думковий експеримент. Ця людина і її питання вперше привели концепцію "інтелекту", що перебувала в філософських залах протягом тисячоліть, до сучасної наукової арени. Це був Алан Тюрінг.

У 1950 році, на зорі комп'ютерних наук, машини були громіздкими, повільними і могли виконувати лише найосновніші обчислення. Проте думки Тюрінга вже перевершили обмеження епохи. У своїй революційній статті "Обчислювальні машини та інтелект" він поставив на перший погляд просте, але надзвичайно глибоке питання: "Чи може машина думати?" Тюрінг гостро усвідомлював, що пряме обговорення визначення "думки" призведе до безкінечних філософських боліт. Тому він майстерно перетворив його на гру, що може бути перевірена — "гру імітації" (The Imitation Game), яка згодом стала всесвітньо відомою "тестом Тюрінга".

Правила гри такі: запитувач спілкується через текст з двома анонімними об'єктами, один з яких — людина, а інший — машина. Якщо протягом достатнього часу запитувач не може визначити, хто з них є машиною, то ми можемо сказати, що ця машина пройшла тест, продемонструвавши інтелектуальну поведінку, що не відрізняється від людської. Ось чому початок ШІ є таким унікальним: це не винахід, спрямований на вирішення конкретного завдання, а виклик, спрямований на відповідь на фундаментальне питання.

Велич тесту Тюрінга полягає в тому, що він надає "інтелекту" — цьому розмитому поняттю — операційний, оцінювальний стандарт. Він більше не заплутується в тому, чи є в машині душа або свідомість, а зосереджується на її зовнішній поведінці. Це як сказати, що нам не потрібно відкривати чорну скриньку, щоб дослідити її внутрішню структуру, ми можемо просто спостерігати за її виходом, щоб оцінити її можливості. Ця практична думка перетворила чисто філософське міркування на інженерну мету, з якою можуть працювати інженери та вчені.

Тюрінг посіяв насіння думки, але щоб воно проросло, потрібна була родюча земля і запальний садівник. Ця людина незабаром з'явилася — це був Джон Маккарті. У 1955 році, коли Тюрінг вже помер, його питання надихнуло групу молодих вчених по той бік Атлантики. Тоді дослідження "думаючих машин" були розпорошені по різних галузях, з різними назвами, такими як "кібернетика", "теорія автоматів" тощо.

Молодий асистент професора математики в Дартмутському коледжі Маккарті вважав, що ці розрізнені іскри потрібно зібрати в полум'я. Він планував організувати влітку 1956 року семінар тривалістю кілька тижнів, запросивши найкращі уми США, щоб обговорити можливість моделювання людського інтелекту за допомогою машин. У спільно підготовленій пропозиції для конференції з Марвіном Мінським та іншими вони з оптимізмом заявили, що "кожен аспект інтелекту в принципі може бути точно описаний, щоб машина могла його змоделювати".

Щоб надати цій новій галузі чітку ідентичність, Маккарті потрібна була гучна назва. Він свідомо уникнув впливової на той час "кібернетики", оскільки не хотів, щоб ця нова галузь вважалася частиною академічної території засновника кібернетики Норберта Вінера. Маккарті пізніше згадував, що створив це нове слово, щоб провести межу і встановити незалежну академічну ідентичність. Цю ретельно обрану назву він дав — "штучний інтелект" (Artificial Intelligence).

Конференція в Дартмуті 1956 року стала "творенням" історії ШІ. Вона не лише офіційно назвала цю дисципліну, але, що важливіше, зібрала разом групу мислителів з спільною мрією, встановивши початкову дослідницьку програму. На конференції Аллен Ньюелл і Герберт Саймон продемонстрували першу в історії "думючу" програму — "логічного теоретика" (Logic Theorist), яка могла доводити математичні теореми, як людина, використовуючи символічну логіку, що надзвичайно надихнуло учасників.

Народження назви "штучний інтелект" означало, що новий континент офіційно відкрито. Це дало всім дослідникам, які мали пристрасть до "машинного інтелекту", спільну ідентичність і єдиний прапор. Відтепер вони більше не були самотніми математиками, психологами або інженерами, а стали "вченими в галузі штучного інтелекту". Маккарті не лише назвав цю дисципліну, але й у 1958 році створив мову Lisp, цей потужний інструмент обробки символів став "офіційною мовою" ранніх дослідників ШІ, дозволяючи їм перетворювати абстрактну логіку та ідеї на програми, які дійсно могли працювати на машинах.

Від питання Тюрінга до назви Маккарті, штучний інтелект здійснив ключовий стрибок від 0 до 1. Тюрінг визначив кінцеву мету, а Маккарті дав сигнал до збору, відкривши один з наймасштабніших і найзахоплюючих наукових шляхів в історії людства. Ця подорож почалася з філософського запитання "хто ми?", а врешті-решт привела до наукової практики "створення нового інтелекту" за допомогою коду та алгоритмів.

Перші зіткнення двох шляхів: оптимізм геніїв і холодна реальність

Чому ранні вчені ШІ були такими оптимістичними?

На зорі штучного інтелекту в усій галузі панувала майже божевільна оптимістична атмосфера. Ядром цієї впевненості було просте, але потужне переконання — символізм. Під проводом Марвіна Мінського з Массачусетського технологічного інституту перше покоління вчених ШІ було впевнене, що людський інтелект, а також усі розумові дії можуть бути розкладені на ряд логічних символів і формальних правил. На їхню думку, мозок — це просто "механізм з м'яса", і якщо ми знайдемо правильні правила, ми зможемо відтворити процес мислення на комп'ютері.

Ця віра не була безпідставною, а базувалася на низці захоплюючих ранніх успіхів. У 1956 році з'явилася програма "логічний теоретик", яка вважається першим справжнім програмним забезпеченням штучного інтелекту. Ця програма не лише успішно довела 38 теорем з відомого математичного твору "Принципи математики", але й знайшла для деяких з них більш елегантні доведення, ніж оригінал. Один з її творців, Герберт Саймон, з захопленням заявив: "Ми винайшли комп'ютерну програму, яка може здійснювати ненумеричне мислення, вирішуючи давню проблему тіла і душі". Цей успіх довів світу, що машини дійсно можуть виконувати завдання, які раніше вважалися виключно людськими, творчими інтелектуальними завданнями. Іншим відомим прикладом є система SHRDLU, яка могла віртуально в світі кубиків розуміти та виконувати складні завдання, такі як "поставити червоний піраміду на синій куб".

Ці успіхи в "іграшкових світах", хоча й обмежені за масштабом, стали яскравою лампою, що освітлює шлях до загального інтелекту. Саме ці досяжні результати значно підбадьорили Саймона, Мінського та інших. Вони зробили прогнози, які сьогодні здаються надзвичайно сміливими, наприклад, Саймон передбачав, що протягом десяти років машини зможуть перемогти чемпіона світу з шахів і виявити нові важливі математичні теореми. У той "золотий вік" люди вважали, що якщо йти шляхом символізму, досягнення машинного інтелекту, що зрівняється з людським, — це лише питання часу.

Як виникла перша зима ШІ?

Однак оптимізм геніїв швидко зіткнувся з холодною стіною реальності. Коли дослідники ШІ намагалися застосувати програми, які добре працювали в "іграшкових світах", до реального, складного світу, основні проблеми символізму стали очевидними. По-перше, символізм важко справлявся з "загальними знаннями" та "невизначеністю", які всюди присутні в реальному світі. Щоденні рішення людей сповнені неясності, інтуїції та фонових знань, які важко закодувати в точні логічні правила.

Наприклад, ми всі знаємо, що "вода мокра", "птиці можуть літати", але вручну ввести ці безмежні загальні знання в машину — практично неможливе завдання. По-друге, системи ШІ стикаються з фатальною перешкодою при розширенні — "комбінаторним вибухом". Це означає, що коли змінна проблеми трохи збільшується, кількість можливостей, які система повинна обчислити, зростає експоненційно, швидко перевищуючи обчислювальні можливості будь-якого комп'ютера.

Як і система SHRDLU, як тільки її "світ кубиків" стає трохи складнішим, її продуктивність різко падає, стає нереалістичною. Ці основні обмеження призвели до того, що розвиток ШІ значно відстав від обіцянок. Відчуття розчарування почало поширюватися, і врешті-решт у 1973 році це було підкреслено документом під назвою "Звіт Лайтхілла" (Lighthill Report). Цей звіт, замовлений урядом Великобританії, різко критикував: "Досі жодна область не досягла обіцяного значного впливу".

Звіт вказував на невдачі досліджень ШІ у вирішенні реальних проблем, особливо на безпорадність перед "комбінаторним вибухом", і в результаті дійшов висновку, що багато основних досліджень ШІ не варто продовжувати фінансувати. Публікація цього звіту призвела до значного скорочення фінансування досліджень ШІ в Великобританії, багато університетських лабораторій ШІ були змушені закритися. Ця хвиля також торкнулася США, де фінансуючі організації почали ставитися обережніше, більше схиляючись до короткострокових проектів з чіткими перспективами застосування.

Таким чином, через величезну прірву між обіцянками та реальністю, штучний інтелект пережив свою першу "зиму". Навіть Мінський пізніше визнав, що їх "найбільша помилка... полягала в тому, що вони не усвідомлювали, наскільки складною є проблема, яку ми намагалися вирішити".

Чому навчити ШІ "приймати невизначеність" стало значним прогресом?

Коли шлях символізму зайшов у глухий кут, інша, зовсім інша ідея принесла нову надію для ШІ. Цю нову дорогу відкрив лауреат премії Тюрінга Джудеа Перл (Judea Pearl). Він очолив "революцію ймовірностей", основна ідея якої полягала в тому, що замість того, щоб змушувати ШІ розуміти світ за допомогою чорно-білої логіки, краще навчити його приймати та обробляти "невизначеність". Революційним інструментом Перла стали "байєсівські мережі" (Bayesian networks), які він запропонував наприкінці 1980-х.

Це хитра графічна модель, яка може за допомогою інтуїтивної графічної структури представляти ймовірнісні залежності між різними змінними. Що ще важливіше, вона надає строгий математичний метод, що дозволяє ШІ динамічно оновлювати свої "вірогідності" щодо можливостей подій на основі нових свідчень. Це продемонструвало величезну силу в таких сферах, як медична діагностика. Традиційні експертні системи намагалися проводити діагностику за допомогою жорстких правил "якщо... тоді...", наприклад, "якщо пацієнт має гарячку, то він, можливо, захворів на грип".

Але реальність набагато складніша: гарячка може бути симптомом інших захворювань, і сила зв'язку між симптомами та хворобами також різна. Такі системи, що базуються на абсолютних правилах, часто стають дуже вразливими, коли стикаються з неповною або суперечливою інформацією. Натомість методи, засновані на байєсівських мережах, зовсім інші. Вони можуть побудувати ймовірнісну мережу, що включає різні хвороби та симптоми. Коли лікар вводить свідчення "пацієнт має гарячку", система не робить абсолютного висновку, а автоматично оновлює ймовірності всіх відповідних хвороб (наприклад, грипу, пневмонії тощо) відповідно до теорії Байєса.

Якщо знову ввести нове свідчення "пацієнт кашляє", система знову проводить обчислення, далі коригуючи розподіл ймовірностей, щоб надати більш реалістичну, ймовірнісну діагностичну пропозицію. Ця зміна від прагнення до "визначеності" до прийняття "невизначеності" є значним прогресом у мисленні. Вона вперше надала ШІ можливість здійснювати розумні міркування та приймати рішення в реальному світі, де інформація неповна і сповнена невизначеності. Робота Перла не лише надала потужний новий інструмент для виходу ШІ з реальних труднощів, широко застосовувалася в медицині, розпізнаванні мови, діагностиці несправностей та інших сферах, але й відкрила новий шлях для розвитку штучного інтелекту до більш потужного інтелекту.

У зимі витримали: відродження нейронних мереж і "три гіганти"

Коли оптимістична хвиля символізму відступила, дослідження штучного інтелекту вступило в довгий і холодний "зимовий" період, більшість дослідників і фінансування переключилися на більш практичні експертні системи. Однак на краю академічного світу була невелика група людей, які завжди вірили, що шлях, який раніше критикував Марвін Мінський і який майже був забутий — конекціонізм і нейронні мережі — є правильним шляхом до справжнього інтелекту. Вони були тими, хто витримав зиму, меншістю серед меншості.

Саме ця майже вперта віра в кінцевому підсумку запалила вогонь другої революції штучного інтелекту. Лідерами цієї групи стали пізніше визнані "три гіганти глибокого навчання" — Джеффрі Хінтон, Ян Лекун і Йошуа Бенгіо.

Що таке "глибоке навчання"?

Щоб зрозуміти внесок цих трьох вчених, спочатку потрібно відповісти на основне питання: що таке "глибоке навчання"? Яка його суттєва відмінність від ранніх нейронних мереж? Ранні нейронні мережі, такі як перцептрон, мали дуже просту структуру, зазвичай лише один або два шари. Це схоже на дитину, яка тільки починає малювати і може розпізнавати лише дуже базові лінії та кольорові плями. Якщо ви хочете, щоб вона розпізнала кота, вам потрібно спочатку вручну пояснити їй, які ознаки має кіт — "має尖耳朵", "має胡须", "має圆脸".

Цей процес називається "інженерією ознак", він займає багато часу і зусиль, і результати часто не задовольняють, оскільки реальний світ набагато складніший. А глибоке навчання, як випливає з назви, зосереджене на "глибині" — воно використовує нейронні мережі, що містять багато шарів (від кількох до сотень). Ця багатошарова структура надає їй потужну здатність: автоматично навчатися ознакам. Ми можемо використати більш яскраву метафору для розуміння: це не просто навчання дитини малювати, а надання їй повної системи зорової кори.

Коли вона бачить зображення кота, перший шар цієї "глибини" може автоматично навчитися розпізнавати найосновніші краї та кути; другий шар, спираючись на результати першого, навчиться комбінувати більш складні форми, такі як очі, вуха тощо; далі, на глибших рівнях, навчаться розпізнавати концепцію "котячого обличчя" або навіть цілого "кота". Увесь процес є кінцевим, від початкових пікселів до остаточного висновку "кіт", машина навчається самостійно, без необхідності, щоб людина знову визначала, що таке "尖耳朵" або "胡须".

Цей спосіб навчання, що переходить від конкретного до абстрактного, є найсуттєвішою відмінністю глибокого навчання від ранніх нейронних мереж і джерелом його сили.

"Три гіганти": меншина, що запалила вогонь у зимі

Саме спільна віра в цю "глибину" зв'язала Хінтона, Лекуна і Бенгіо. Протягом десятиліть, коли нейронні мережі були в забутті, вони, незважаючи на сумніви академічного світу, як три самотні факели, боролися в різних напрямках, але врешті-решт спільно вирішили основну проблему, яка дозволила глибокому навчанню перейти від теорії до реальності.

Джеффрі Хінтон (Geoffrey Hinton): засновник, що зробив глибокі мережі "тренованими". Хінтон вважається "батьком глибокого навчання", його найбільший внесок полягав у вирішенні основного питання "як ефективно тренувати глибоку мережу".

У 1986 році він разом з колегами популяризував алгоритм зворотного поширення (Backpropagation). Цей алгоритм подібний до строгого вчителя, коли мережа робить помилкове рішення, він може "зворотно" передавати помилковий сигнал з останнього шару назад, кажучи кожному нейрону, як налаштувати свої параметри, щоб наступного разу зробити краще. Це відкриття зробило можливим навчання багатошарових нейронних мереж, заклавши основу для всієї галузі глибокого навчання.

Ян Лекун (Yann LeCun): новатор, що навчив ШІ "бачити" світ. Лекун зосередився на тому, як навчити машини "бачити" світ. Він усвідомив, що обробка зображень не може бути такою ж, як обробка звичайних даних. Надихнувшись біологічною зоровою корою, він наприкінці 1980-х розробив згорткові нейронні мережі (Convolutional Neural Networks, CNN).

CNN імітує спосіб, яким очі захоплюють локальну інформацію через "згорткові ядра", і значно зменшує кількість параметрів моделі через "спільні ваги", що робить її ефективною та точною при обробці зображень. Його мережа LeNet-5, розроблена в 1998 році, успішно застосовувалася в системі розпізнавання рукописних цифр на чеках, ставши зразком першого комерційного застосування CNN і проклавши шлях для всіх подальших проривів у комп'ютерному зорі.

Йошуа Бенгіо (Yoshua Bengio): теоретик, що навчив ШІ "розуміти" мову. Коли Лекун навчав ШІ "бачити", Бенгіо думав, як навчити ШІ "читати" та "розуміти".

Він прагнув вирішити проблему "катастрофи вимірності" в обробці природної мови (NLP). Його нейронна ймовірнісна мовна модель вперше ввела концепцію векторів слів (Word Embeddings). Ця технологія відображає кожне слово в простір високої вимірності, так що семантично близькі слова розташовані близько одне до одного в просторі. Наприклад, вектори "короля" та "королеви" будуть дуже близькими. Це дозволило машинам вперше захопити семантичні зв'язки між словами, заклавши міцну основу для подальшого розвитку всіх моделей послідовностей, таких як машинний переклад, аналіз емоцій тощо.

Ці троє вчених: один вирішив "як навчати" (зворотне поширення), інший "як бачити" (CNN), третій "як розуміти" (вектори слів), їхня робота доповнює одна одну, спільно формуючи сучасну технологічну карту глибокого навчання.

2012 рік ImageNet: "космічний вибух", що запустив революцію

Хоча "три гіганти" вже підготували теоретичну базу, для того, щоб запустити цю революцію, потрібен був вирішальний момент. Цей момент настав у 2012 році. Великий конкурс з візуального розпізнавання ImageNet (ILSVRC) був "олімпіадою" в галузі комп'ютерного зору, що вимагала від учасників розпізнати та класифікувати понад мільйон зображень, охоплюючи 1000 категорій. До 2012 року чемпіони конкурсу завжди були командами, які використовували традиційні методи машинного навчання, і покращення результатів завжди було важким.

Однак у цей рік все змінилося. Хінтон і його двоє студентів — Алекс Кризевський (Alex Krizhevsky) та Ілля Сутскевер (Ilya Sutskever) — представили глибоку згорткову нейронну мережу під назвою AlexNet. AlexNet — це мережа глибиною 8 шарів, яка не лише використовувала архітектуру CNN Лекуна, але й креативно застосовувала функцію активації ReLU та Dropout для покращення продуктивності та запобігання перенавчанню, а також використовувала потужність двох GPU для паралельного навчання.

Результат був руйнівним. AlexNet здобув перемогу з помилкою Top-5 лише 15,3%, тоді як друге місце показало 26,1%. Ця величезна різниця більше ніж на 10 відсотків викликала сильний землетрус у всьому світі ШІ. Це вже не було незначним прогресом, а справжнім виміром. Ця перемога беззаперечно довела, що за достатньої кількості даних і обчислювальної потужності продуктивність глибокого навчання перевершує всі традиційні методи. Конкурс ImageNet 2012 року вважається знаковою подією в історії ШІ, це "точка вибуху" революції глибокого навчання.

Як сказав Хінтон, з того часу "майже всі дослідження комп'ютерного зору перейшли на нейронні мережі". Ця перемога стала стартовим сигналом, що оголосив про повний кінець зими ШІ та відкриття нової ери, в якій домінуватиме глибоке навчання. Ті, хто витримав у темряві протягом десятиліть, нарешті отримали свій радісний момент.

Від лабораторії до всього світу

Створення, поширення та роздуми про ШІ Якщо "три гіганти глибокого навчання" знайшли потужний двигун для штучного інтелекту, то історія після 2010 року стосується того, як підключити кермо до цього двигуна, прокласти дороги та, зрештою, роздумати, куди ця машина поведе людство.

Цей процес також був ініційований кількома ключовими особами, які відповіли на три основні питання: як ШІ навчається "створювати"? Як ШІ виходить з "слонової кімнати"? І коли ШІ отримує величезну силу, як ми можемо її контролювати? "Генеративний ШІ": Ідея, що виникла з дебатів у барі У 2014 році Іан Гудфеллоу (Ian Goodfellow), який ще навчався в Монреалі, разом з друзями зібрався в барі.

Дебати про те, як змусити комп'ютер генерувати реалістичні фотографії, запалили його натхнення. Того вечора він придумав геніальну концепцію — генеративні змагальні мережі (Generative Adversarial Networks, GAN). Суть цієї ідеї полягає в "суперництві". Система GAN складається з двох нейронних мереж, які змагаються одна з одною: одна "генератор" (Generator) і одна "дискримінатор" (Discriminator).

Завдання генератора полягає в тому, щоб, як талановитий "підробник", постійно вивчати ознаки реальних даних, а потім створювати "підробки" (наприклад, фальшиві фотографії облич). Дискримінатор, у свою чергу, виконує роль "експерта", його єдина мета — точно розрізняти, які дані є реальними, а які — підробленими. Процес навчання нагадує безперервну гру з нульовою сумою: генератор намагається обманути дискримінатор, а дискримінатор намагається викрити обман.

У цьому процесі суперництва обидві мережі еволюціонують. Врешті-решт, коли дискримінатор більше не може ефективно розрізняти справжнє і підроблене, це означає, що генератор вже оволодів здатністю створювати надзвичайно реалістичні дані. Ця ідея була настільки новою та потужною, що один з "три гігантів глибокого навчання" Ян Лекун (Yann LeCun) назвав її "найцікавішою ідеєю в галузі машинного навчання за останні 20 років". Народження GAN стало якісним стрибком в історії розвитку ШІ.

До цього ШІ більше нагадував старанного "розпізнавача", який вміє класифікувати, розпізнавати та прогнозувати. А GAN надала ШІ ідентичність "творця", вперше наділивши його здатністю генерувати новий, складний контент з нуля, відкриваючи двері до ери генеративного ШІ, яку ми знаємо сьогодні.

Ключ до поширення технологій: Енді Нг і проповідь "нової електрики"

Революційна технологія, якщо вона залишиться лише в лабораторії, зрештою матиме обмежену цінність. Перетворення ШІ з інструменту для невеликої кількості еліт на навичку, якою можуть навчатися та застосовувати мільйони людей у всьому світі, стало критично важливим завданням, в якому Енді Нг (Andrew Ng) зіграв ключову роль "проповідника". Як професор Стенфордського університету та співзасновник Coursera, Нг у 2011 році запустив онлайн-курс "Машинне навчання", який став каталізатором хвилі MOOC (масових відкритих онлайн-курсів), залучивши мільйони людей з усього світу.

Потім, у співпраці з DeepLearning.AI, він запустив "Спеціалізацію з глибокого навчання" та курс "ШІ для всіх" для непрофесіоналів, що ще більше знизило бар'єри для отримання знань про ШІ. До 2023 року понад 8 мільйонів людей пройшли його курси. Нг не лише популяризував знання, але й висунув ідею, що має далекосяжні наслідки: "ШІ — це нова електрика" (AI is the new electricity).

Він вважає, що, як електрика революційно змінила сільське господарство, транспорт, виробництво та практично всі галузі сто років тому, так і ШІ сьогодні є основною технологією, що з неймовірною силою перетворює всі сфери. Ця метафора точно вказує на майбутнє ШІ — це не ізольований продукт, а інфраструктура, яка проникає в усі аспекти суспільства. Саме це бачення інженерного та промислового застосування ШІ значно прискорило перехід ШІ з академічних досліджень до промислової практики.

Етика ШІ як сигнал тривоги

Тімніт Гебру та невідворотні роздуми Коли сила ШІ зростає експоненційно і починає глибоко втручатися в соціальні рішення, перед усіма постає серйозне питання: як ми можемо забезпечити, щоб ця технологія була справедливою, чесною та відповідальною? Етична науковиця ШІ Тімніт Гебру (Timnit Gebru) стала найпредставнішим "сигналом тривоги" в цій галузі. У 2018 році Гебру разом з колегами опублікувала знакове дослідження під назвою "Gender Shades".

Вони виявили, що на той час основні комерційні системи розпізнавання облич мали серйозні упередження: при розпізнаванні чоловіків зі світлою шкірою точність була близькою до ідеальної; але при розпізнаванні жінок з темною шкірою помилковий рівень досягав майже 35%. Це дослідження стало тривожним сигналом, який потужно продемонстрував, як упередження в навчальних даних можуть бути посилені системами ШІ, завдаючи системної несправедливості маргіналізованим групам. Це дослідження безпосередньо спонукало компанії, такі як IBM і Microsoft, вдосконалити свої алгоритми, щоб зменшити упередження.

Кілька років потому, коли Гебру була спільною відповідальною за етичну команду ШІ в Google, вона знову опинилася в центрі уваги через статтю під назвою "Про небезпеки випадкових папуг: чи можуть мовні моделі стати занадто великими?". У цій статті вона різко вказала на упередження, екологічні витрати великих мовних моделей та ризики, пов'язані з їхньою здатністю лише імітувати людські мовні моделі, не розуміючи їхнього значення — як "випадкові папуги". Ця стаття викликала конфлікт між нею та керівництвом Google, що врешті-решт призвело до її звільнення.

Досвід Гебру позначив нову стадію розвитку ШІ. Коли ШІ перестає бути просто іграшкою в лабораторії, а стає потужним інструментом, здатним впливати на найм, кредитні рішення та навіть судові вироки, розгляд його упереджень, ризиків та соціальних наслідків стає критично важливим. Її робота нагадує всій галузі: прогрес технологій, якщо він відривається від гуманітарної турботи та соціальної відповідальності, може призвести не до благополуччя, а до нових кайданів. Від створення Гудфеллоу до популяризації Нга, а потім до роздумів Гебру, історії цих трьох осіб спільно малюють повну картину ШІ в нову епоху: технологія з безмежною творчістю, що з неймовірною швидкістю інтегрується у світ, одночасно змушуючи нас серйозно замислитися про те, як з нею співіснувати.

Починаючи з питання

"Чи може машина думати?" Кожна велика зміна часто не починається з вражаючого винаходу, а з вражаючого питання. Творення штучного інтелекту (ШІ) є саме таким. Його початок не в конкретній машині, а не в магічному коді, а в філософському запитанні, яке британський математик Алан Тюрінг (Alan Turing) кинув світу в середині 20 століття: "Чи може машина думати?" У ті часи, коли комп'ютери були величезними, це питання звучало як наукова фантастика. Але унікальність Тюрінга полягала в тому, що він не дозволив цьому питанню залишитися в філософських міркуваннях. Він спроектував хитрий думковий експеримент — "гру імітації", яка згодом стала широко відомою як "тест Тюрінга". Цей тест майстерно обходить визначення розмитого поняття "думки", ставлячи питання: якщо машина може спілкуватися з людиною, і її поведінка не відрізняється від людської, чи можемо ми вважати цю машину розумною?

Постановка цього питання стала, як спалах, що розриває ніч. Вперше вона перенесла давню мрію "створення інтелекту" з міфів і філософії в область, що може бути перевірена, що може бути оскаржена в інженерії. Тюрінг не дав нам відповіді, але він дав усім наступникам чітку мету та план, який можна почати малювати. Він сказав світу: інтелект, можливо, може бути точно описаний і змодельований. Це іскра думки була посіяна на надзвичайно родючому ґрунті.

Світ після Другої світової війни, особливо 50-ті роки 20 століття, був просякнутий небаченим науковим оптимізмом і духом "можу зробити". Людство щойно оволоділо атомною енергією, винайшло електронний комп'ютер, розгадало код життя. Перемога науки змусила людей вірити, що завдяки людському розуму та новим потужним інструментам немає жодного великого виклику, який не можна подолати. Якщо машини можуть обчислювати складні траєкторії, можуть зламувати ворожі коди, то чому б не зробити ще один крок вперед, щоб імітувати або навіть мати людську здатність до навчання, міркування та творчості?

Саме в такому контексті група найкращих і найпрогресивніших умів того часу почала об'єднуватися навколо однієї мрії. Однак їхні ідеї були розпорошені в математиці, психології, теорії інформації та новій комп'ютерній науці. Їм потрібен був момент, який об'єднає ці розрізнені струмки в одну велику ріку. Цей момент настав влітку 1956 року. Молодий математик на ім'я Джон Маккарті разом з Марвіном Мінським, Натаніелем Рочестером та батьком теорії інформації Клодом Шенноном подали сміливу пропозицію до Фонду Рокфеллера.

Вони планували провести в Дартмутському коледжі в штаті Нью-Гемпшир кількатижневий літній семінар. Вступ до пропозиції був сповнений оптимізму та амбіцій того часу: "Ми пропонуємо провести влітку 1956 року... дослідження штучного інтелекту. Дослідження базуватиметься на припущенні, що кожен аспект навчання або будь-яка інша характеристика інтелекту в принципі можуть бути точно описані, щоб машина могла їх змоделювати". Щоб надати цій новій галузі чітку ідентичність, Маккарті старанно створив нове слово: "штучний інтелект" (Artificial Intelligence).

Цей вибір не був випадковим. Тоді вже існувала впливова галузь, відома як "кібернетика", яка в основному досліджувала зворотний зв'язок і контроль у біології та машинах. Але Маккарті хотів відкрити новий, більш зосереджений напрямок, що стосується реалізації логіки, міркування та інших вищих когнітивних функцій за допомогою комп'ютерів, а не бути обмеженим рамками кібернетики. Народження цієї назви стало гучною "декларацією незалежності", що надала всім дослідникам, які мали спільну мрію, єдиний прапор.

Літнє зібрання 1956 року, яке згодом стало відомим як "конференція в Дартмуті", відбулося вчасно. Це не була сувора академічна конференція, а скоріше тривала шість-вісім тижнів мозкова атака. Аллен Ньюелл, Герберт Саймон, Рей Соломонов та інші майбутні гіганти в галузі ШІ були присутні. Вони мали різний досвід, приносячи різні перспективи з логіки, психології, математики та інженерії.

Одним з кульмінаційних моментів конференції стало демонстрування програми "логічний теоретик" Ньюеллом і Саймоном. Ця програма успішно довела кілька теорем з відомого математичного твору "Принципи математики". Це не просто була технічна демонстрація, це стало оголошенням, що машини дійсно можуть виконувати завдання, які раніше вважалися виключно людськими, сповненими мудрості символічними міркуваннями. Це дало першу позитивну, видиму відповідь на питання "Чи може машина думати?".

Це і є "творення" ШІ. Воно не виникло в результаті одноразового успіху в лабораторії, а сталося в результаті великого злиття думок. Конференція в Дартмуті є важливою з трьох причин: по-перше, вона дала назву цій галузі. Відтепер "штучний інтелект" отримав офіційну ідентичність, що привернуло увагу до фінансування, талантів та інтересу. По-друге, вона встановила основні програми. Конференція обговорила символічну обробку, нейронні мережі, обробку природної мови та інші напрямки, які стали основними напрямками досліджень ШІ в наступні десятиліття. По-третє, вона створила початкову спільноту. Ця конференція з'єднала групу самотніх мислителів, які після повернення до своїх установ почали створювати перші лабораторії ШІ (такі як MIT, Carnegie Mellon University та Stanford University), посіваючи насіння, яке згодом виросло в величезні дерева. Конференція в Дартмуті була визнана "конституційною конференцією ШІ". Вона офіційно перетворила велике питання, поставлене Тюрінгом, на величезну наукову подорож, що залучила кілька поколінь найкращих талантів.

Хоча учасники були надто оптимістичними у своїх прогнозах на майбутнє, не передбачивши труднощів і "зим", полум'я, яке вони запалили, ніколи не згасло. Від одного питання до народження дисципліни. Історія ШІ тільки почалася.

Божевільні мрії геніїв і стіни реальності

Після того, як конференція в Дартмуті офіційно назвала штучний інтелект, почався "золотий вік" (приблизно 1956-1974 роки), сповнений безмежного оптимізму та сміливих прогнозів.

Ці перші піонери ШІ, представлені Гербертом Саймоном і Марвіном Мінським, були впевнені, що вони вже мають ключ до машинного інтелекту. Їхня впевненість не була безпідставною, а базувалася на низці вражаючих успіхів, досягнутих у "зменшеному світі". Найбільш представницьким з цих ранніх досягнень була програма "логічний теоретик". Розроблена Алленом Ньюеллом, Гербертом Саймоном і Дж. С. Шоу в 1956 році, ця програма вважається першим програмним забезпеченням штучного інтелекту у світі.

Її завдання полягало в доведенні математичних теорем, запропонованих математиками Уайтхедом і Расселом у їхньому великому творі "Принципи математики". Результати були вражаючими: "логічний теоретик" не лише успішно довів 38 з 52 теорем, але й знайшов більш прості та елегантні доведення для деяких з них. Цей успіх значно підбадьорив дослідників, оскільки чітко показав, що машини можуть не лише обчислювати, але й виконувати складні логічні міркування, які раніше вважалися виключно людськими.

Невдовзі ця команда у 1959 році представила "універсальний розв'язувач проблем" (General Problem Solver, GPS). Революційність GPS полягала в тому, що вона намагалася змоделювати загальний спосіб мислення людини при вирішенні проблем. Вона відокремлювала специфічні знання (такі як правила) від загальних стратегій розв'язання, використовуючи стратегію, відому як "аналіз засобів і цілей", постійно встановлюючи підцілі, щоб наблизитися до остаточної відповіді. GPS успішно вирішила ряд класичних логічних головоломок, таких як "вежа Ханой" та геометричні доведення, даючи надію на створення "мислячої машини", здатної вирішувати загальні проблеми в різних сферах.

Якщо GPS продемонструвала "мислення" машини, то система SHRDLU з Массачусетського технологічного інституту вперше надала машині здатність "розуміти" та взаємодіяти з фізичним світом. У віртуальному "світі кубиків", створеному Тері Віноградом у 1970 році, користувачі могли давати команди системі звичайною англійською мовою, наприклад, "підніми той великий червоний кубик". SHRDLU могла аналізувати команди, розуміти контекст (наприклад, коли ви запитуєте "яка піраміда?", вона просить уточнити), планувати та виконувати серії дій (такі як захоплення, переміщення, складання) і навіть відповідати на питання про стан цього світу. Успіх SHRDLU ідеально поєднав розуміння мови, планування міркувань і виконання дій, даючи людям відчуття, що вони бачать зародок інтелектуального робота, який може вільно спілкуватися з людьми та працювати разом. Ці блискучі перемоги в закритих, чітко визначених "іграшкових світах" викликали величезний оптимізм.

Саймон у 1965 році сміливо передбачив: "Протягом двадцяти років машини зможуть виконувати всі роботи, які можуть виконувати люди". Мінський також погодився: "Протягом одного покоління... проблема створення 'штучного інтелекту' буде в основному вирішена". Однак, коли ці геніальні мрії намагалися перейти з ідеалізованих лабораторій у складний реальний світ, вони швидко зіткнулися з холодною стіною реальності. Ця стіна складалася з двох основних проблем. По-перше, "комбінаторний вибух" (Combinatorial Explosion).

У простому світі кубиків можливості обмежені. Але коли проблема трохи розширюється, наприклад, від гри в шахи до гри в го, або від планування переміщення кількох кубиків до планування міського транспорту, кількість можливостей, які потрібно обчислити, зростає експоненційно, миттєво вичерпуючи обчислювальні потужності навіть найпотужніших комп'ютерів того часу і сьогодні. Ранні успіхи ШІ в "іграшкових проблемах" виявилися безсилими перед складністю реальності. Другою проблемою була ще більш фундаментальна — "відсутність загальних знань і контексту".

Людський світ сповнений безлічі очевидних загальних знань і неясного контексту. Наприклад, ми знаємо, що "вода мокра", "мотузка може тягнути, але не штовхати", "якщо людина потрапила під дощ, вона може захворіти". Ці знання настільки базові, що ми навіть не усвідомлюємо їх існування. Але для системи ШІ, яка розуміє лише логіку та правила, цей світ є абсолютно чужим. Вона не може зрозуміти ці приховані фонові знання, що призводить до того, що її здатність до міркування в реальних ситуаціях виявляється вкрай слабкою та абсурдною.

SHRDLU може зрозуміти "підняти кубик", але не може зрозуміти, що означає "підняти обіцянку". Ця проблема "прив'язки символів", тобто символи не можуть бути пов'язані зі значенням реального світу, стала непереборною прірвою для символістського ШІ. Надмірні очікування та жорстока реальність створили величезний розрив, відчуття розчарування почало поширюватися, і врешті-решт два знакові події призвели до першої "зими" штучного інтелекту. Першою подією став "Звіт Лайтхілла" (Lighthill Report), опублікований урядом Великобританії в 1973 році.

Цей звіт, написаний прикладним математиком сером Джеймсом Лайтхіллом, безжально критикував тодішні дослідження ШІ. Звіт різко вказував на те, що ШІ в автоматизації та обробці мови "досі не досяг жодного значного впливу". Він вказував на дві основні слабкості досліджень ШІ: невдачі у вирішенні реальних проблем і повну безпорадність перед "комбінаторним вибухом". Цей впливовий звіт безпосередньо призвів до значного скорочення фінансування досліджень ШІ в Великобританії, і дослідження ШІ фактично зупинилося.

Другий важкий удар прийшов з США, від самого лідера в галузі ШІ Марвіна Мінського. У 1969 році Мінський разом із Сеймуром Папертом опублікував книгу "Перцептрони" (Perceptrons). У цій книзі вони через строгі математичні доведення вказали на основні обмеження іншого технічного шляху, що паралельно існував із символізмом — конекціонізму (тобто предків нейронних мереж). Вони довели, що одношарові нейронні мережі (тобто "перцептрони") є лінійними моделями, які не можуть вирішити деякі основні проблеми, такі як найпростіша "виключна або" (XOR).

Цей висновок сам по собі був правильним, але його сприйняли як "смертний вирок" для всього шляху нейронних мереж. Великий вплив цієї книги призвів до того, що фінансування досліджень конекціонізму практично повністю припинилося, і цей шлях, який міг би доповнити символізм, потрапив у тривалу тишу на понад десять років. Таким чином, колишній ентузіазм швидко охолов. Надмірні очікування, теоретичні обмеження та наступне скорочення фінансування разом призвели до першої тривалої зими штучного інтелекту.

Мрії геніїв зіткнулися зі стіною реальності, і вся галузь впала з шумного піку в тиху долину, чекаючи на наступне відродження.

Потайки та відродження

Шукаючи вихід у невизначеності Наприкінці 1980-х років "золотий вік" штучного інтелекту зустрівся з пронизливим холодом. Ринок експертних систем, на який покладали великі надії, зазнав краху, промисловість LISP також занепала, а інвестиційний ентузіазм урядів і підприємств різко знизився. Дослідження ШІ знову впало в низький рівень, що стало історичною другою "зимою ШІ".

Однак, на відміну від першої зими, коли панувала тиша, цього разу розвиток ШІ не зупинився повністю, а скоріше нагадував замерзлу річку, де на поверхні панувала тиша, але під льодом текли дві приховані течії. Одна з них — це "явна наука", що намагається довести свою цінність у певних сферах. Інша — "прихована течія", що тихо накопичує сили, чекаючи весни. Перший шлях — це пошук символістського ШІ в умовах труднощів. Хоча експертні системи врешті-решт занепали через високу вартість створення їхніх баз знань і труднощі в обробці невизначеності, їхня спадщина була цінною: вони довели, що ШІ здатен вирішувати реальні проблеми в певних ситуаціях, запаливши першу лампу для комерційного застосування ШІ.

Що ще важливіше, під час роздумів про те, чому експертні системи зазнали невдачі, один мислитель вказав на новий напрямок для розвитку ШІ. Це був Джудеа Перл. Перл усвідомив, що реальний світ сповнений невизначеності, і чорно-білі логічні правила не можуть описати складність світу. Він ввів ймовірність і причинно-наслідкові зв'язки в ШІ, навчаючи машини думати в термінах "можливостей" і приймати розумні рішення на основі неповної інформації.

Це не лише стало важливим доповненням до символізму, але й дало ШІ можливість перейти з ідеалізованого логічного світу до реального світу, сповненого невідомого та змін. Тим часом інша, більш прихована та революційна течія "потайки" розвивалася на краю академічного світу. Це була дослідження конекціонізму, представленого нейронними мережами. Дослідники цього шляху були справжніми "глибокими занурювачами". У їхньому арсеналі з'явилася потужна теоретична зброя. У 1986 році Джеффрі Хінтон разом із колегами знову популяризував алгоритм зворотного поширення і систематично довів його ефективність.

Цей алгоритм хитро вирішив проблему навчання багатошарових нейронних мереж, дозволяючи машинам "рефлексувати" помилки, щоб поступово коригувати внутрішні параметри, вивчаючи більш складні шаблони. Хінтон пізніше згадував, що вони тоді оптимістично вважали, що цей алгоритм "вирішить усе". Однак теоретичне світло не відразу розвіяло холод зими реальності. У 90-х роках дослідження нейронних мереж швидко зіткнулося з трьома стінами: недостатньою обчислювальною потужністю, нестачею даних і академічними сумнівами з боку колег. Тоді комп'ютери були слабкими і не могли підтримувати навчання великих мереж.

Водночас статистичні методи навчання, такі як методи підтримки векторів (SVM), демонстрували кращі результати в багатьох завданнях, ніж нейронні мережі того часу, що призвело до відтоку фінансування та талантів в інші сфери. Нейронні мережі знову стали вважатися нереалістичними, а дослідження опинилося в скрутному фінансовому становищі та забутті. У такій важкій ситуації деякі дослідники вирішили залишитися. Ян Лекун став одним з найяскравіших представників.

У 1988 році він приєднався до лабораторії Bell AT&T, незважаючи на тиск з боку академічного світу, і зосередив усі свої зусилля на розробці особливої нейронної мережі — згорткових нейронних мереж (CNN). Він був впевнений, що ця структура, що імітує біологічну зорову кору, є ключем до того, щоб навчити машини "бачити" світ. Мета Лекуна була дуже чіткою: навчити машину розпізнавати рукописні чеки. Після багатьох ітерацій його команда в 1998 році представила класичну модель LeNet-5.

Ця мережа була успішно впроваджена в комерційні системи, і на початку 21 століття вона обробляла близько 20 мільйонів чеків щодня, що становило близько 10% від загального обсягу чеків у США на той час. Це був знаковий успіх. Це не лише була рідкісна комерційна перемога технології нейронних мереж у зимі, але й як насіння, закопане в замерзлу землю, довело, що ця "прихована течія" має величезну енергію. Це показало світу: нейронні мережі не є фантазією, вони можуть вирішувати реальні проблеми, і їхній потенціал безмежний.

Таким чином, у 90-х роках і на початку 21 століття дві течії ШІ розвивалися паралельно. Одна течія, використовуючи ймовірності та причинно-наслідкові зв'язки, дозволила ШІ "вижити" в комерційному світі та навчитися більш зрілого співіснування з невизначеністю; інша течія "потайки" розвивалася в академічних куточках, готуючи найсучаснішу зброю для майбутньої революції. Ці дві сили, одна на поверхні, інша в тіні, разом заклали основу для майбутнього вибуху.

Водночас з'явилася "східна вітер" з боку апаратного забезпечення — паралельні обчислювальні апарати, представлені GPU, мали потужні можливості матричних обчислень, які природно відповідали потребам нейронних мереж. Коли цей "східний вітер" нарешті досягнув родючого ґрунту обчислювальної потужності, даних і алгоритмів, почалася технологічна революція, що переверне світ.

Від "бачення світу" до "створення світу"

30 вересня 2012 року відбувся історичний поворотний момент у великому конкурсі з візуального розпізнавання ImageNet (ILSVRC).

Команда, що складалася з професора Джеффрі Хінтона та його двох студентів — Алекса Кризевського та Іллі Сутскевера — представила глибоку нейронну мережу під назвою AlexNet. Її результати вразили всю галузь комп'ютерного зору: її помилка в розпізнаванні зображень становила лише 15,3%, що на 10,8 відсотка нижче, ніж у другого місця.

Це була не просто перемога в конкурсі, а стартовий сигнал. AlexNet беззаперечно довела, що за допомогою глибоких мереж, величезних даних і потужності GPU машини дійсно можуть навчитися "бачити" цей світ. Відтоді революція глибокого навчання була повністю запущена, а розвиток ШІ вступив у нову еру. Якщо AlexNet надала ШІ безпрецедентні "очі", то всього через два роки молодий дослідник наділив ШІ безмежною "уявою".

У 2014 році, коли Іан Гудфеллоу (Ian Goodfellow) ще був аспірантом, він під час обговорення академічних питань у барі раптово висловив геніальну ідею — генеративні змагальні мережі (GAN). Принцип GAN нагадує вічну гру "меча" та "щит". Вона складається з двох нейронних мереж, які змагаються одна з одною: одна "генератор" (Generator) і одна "дискримінатор" (Discriminator).

Завдання генератора полягає в тому, щоб створити дані, які важко відрізнити від реальних (наприклад, зображення), намагаючись обманути дискримінатор; а дискримінатор, у свою чергу, має завдання точно розрізняти, які дані є реальними, а які — підробленими. У цій постійній боротьбі та еволюції генератор, щоб виграти, вдосконалює свої "підробки", врешті-решт здатний створювати новий контент, який важко відрізнити навіть для людей. Від реалістичних облич до художніх творів, від медичних зображень до GAN, ШІ вперше справді перетворився з "розпізнавача" та "аналітика" на "творця".

ШІ більше не просто розуміє світ, він починає мати можливість створювати новий, цифровий "світ". Поки ШІ стрімко розвивався в сфері візуального створення, ще одна, більш глибока структурна зміна тихо визрівала. У 2017 році команда дослідників з Google опублікувала революційну статтю під назвою "Attention Is All You Need" (Увага — це все, що вам потрібно). Ця стаття відмовилася від традиційної структури рекурентних нейронних мереж (RNN), що зазвичай використовувалася для обробки послідовних даних (таких як мова), і запропон