2024 m. Nobelio fizikos premija: atradimai, davę pradžią dirbtiniam intelektui

Search

2024. 10. 08 -

2024 m. Nobelio fizikos premija: atradimai, davę pradžią dirbtiniam intelektui

„Šokinėjimas“ per dirbtinius neuroninius tinklus. Johano Jarnestado / Švedijos Karališkosios mokslų akademijos iliustracija

2024 m. Nobelio fizikos premijos laureatais šiandien tapo Princtono universiteto (JAV) profesorius emeritas Johnas J. Hopfieldas ir Toronto universiteto (Kanada) profesorius emeritas Geoffrey E. Hintonas. Jie pagerbti už atradimus, įgalinančius mašininį mokymąsi naudojant dirbtinius neuronų tinklus – kas tapo šiuolaikinio dirbtinio intelekto pagrindu.

Apie tai savo feisbuko paskyroje išsamiau rašo FTMC Fundamentinių tyrimų skyriaus vyriausiasis mokslo darbuotojas dr. Sergejus Orlovas.

.....

Johnas Hopfieldas ir Geoffrey Hintonas, kuris yra žinomas kaip dirbtinio intelekto (DI) krikštatėvis, šiandien buvo apdovanoti Nobelio fizikos premija už atradimus ir išradimus, kurie sukūrė dabartinį mašininį mokymąsi ir dirbtinį intelektą. Taip, taip, fizikai inicijavo visą tą dirbtinio intelekto hype‘ą!

Šių metų laureatai naudojo fizikos teoriją, kad sukurtų metodus, kurie yra šiandienos galingo mašininio mokymosi pagrindai. J. Hopfieldas sukūrė asociatyviąją atmintį, kuri gali saugoti ir atkurti vaizdus bei kitus duomenų modelius. G. Hintonas išrado metodą, kuris gali autonomiškai rasti duomenų savybes ir atlikti užduotis, tokias kaip specifinių elementų atpažinimas nuotraukose.

Kai kalbame apie dirbtinį intelektą, dažnai turime omenyje mašininį mokymąsi naudojant dirbtinius neuroninius tinklus. Ši technologija iš pradžių buvo įkvėpta smegenų struktūros. Dirbtiniame neuroniniame tinkle smegenų neuronai yra atvaizduojami mazgais, kurie turi skirtingas vertes. Šie mazgai veikia vienas kitą per jungtis, kurios gali būti stiprinamos arba silpninamos. Tinklas yra mokomas, pavyzdžiui, stiprinant jungtis tarp mazgų, kurie tuo pačiu metu turi aukštas vertes. Šių metų laureatai nuo 1980-ųjų atliko svarbų darbą su dirbtiniais neuroniniais tinklais.

(Unsplash.com nuotrauka)

Daugelis žmonių yra patyrę, kaip kompiuteriai gali versti tekstus iš vienos kalbos į kitą, interpretuoti vaizdus ir netgi vesti prasmingus pokalbius. Galbūt mažiau žinoma, kad tokio tipo technologijos jau seniai yra naudojamos moksliniams tyrimams, įskaitant didžiulių duomenų kiekių rūšiavimą ir analizę. Mašininio mokymosi plėtra per pastaruosius 15–20 metų augo ir naudoja struktūrą, vadinamą dirbtiniu neuroniniu tinklu. Šiandien, kai kalbame apie dirbtinį intelektą, dažnai turime omenyje būtent šią technologiją.

Nors kompiuteriai negali mąstyti, mašinos dabar geba imituoti tokias funkcijas kaip atmintis ir mokymasis. Šių metų fizikos laureatai padėjo tai padaryti įmanomu dalyku. Naudodami pagrindines fizikos sąvokas ir metodus, jie sukūrė technologijas, kurios naudoja tinklų struktūras informacijai apdoroti.

Mašininis mokymasis skiriasi nuo tradicinės programinės įrangos, kuri veikia kaip tam tikras veiksmų receptas. Programinė įranga gauna duomenis, kurie apdorojami pagal aiškų aprašymą ir pateikia rezultatus, panašiai kaip kažkas surenka ingredientus ir apdoroja juos pagal receptą, gamindamas pyragą. Vietoje to, mašininis mokymasis leidžia kompiuteriui mokytis iš pavyzdžių, leidžiant jam spręsti problemas, kurios yra per daug neaiškios ir sudėtingos, kad būtų valdomos žingsnis po žingsnio atliekamomis instrukcijomis. Geras pavyzdys yra vaizdo interpretavimas, siekiant atpažinti jame esančius objektus.

Dirbtinis neuroninis tinklas apdoroja informaciją naudodamas visą savo tinklo (modelio) struktūrą. Pradinis įkvėpimo šaltinis buvo noras suprasti, kaip veikia smegenys. 1940-aisiais mokslininkai pradėjo svarstyti, kokia būtų matematika, vystoma smegenų neuronų ir sinapsių tinklo pagrindu. Kitas dėlionės gabalas atėjo iš psichologijos – dėka hipotezės apie tai, kaip mokymasis vyksta, kai neuronų jungtys yra stiprinamos, kai jie dirba kartu.

Dirbtiniuose neuroniniuose tinkluose smegenų neuronai yra imituojami mazgais, kuriems suteikiamos skirtingos vertės, o sinapsės yra atvaizduojamos jungtimis tarp mazgų, kurios gali būti programiškai stiprinamos arba silpninamos. Donaldo Hebbo hipotezė vis dar naudojama kaip viena iš pagrindinių taisyklių, atnaujinant esamus dirbtinius tinklus per procesą, vadinamą mokymu.

1960-ųjų pabaigoje kai kurie šių tyrimų rezultatai sukėlė nusivylimą ir daugelis tyrėjų pradėjo manyti, kad šie neuroniniai tinklai niekada nebus tikrai naudingi. Tačiau 1980-aisiais susidomėjimas dirbtiniais neuroniniais tinklais atgijo, kai atsirado kelios svarbios idėjos, įskaitant šių metų laureatų darbus.

(Prof. Johnas Hopfieldas. Lexo Fridmano jutubo kanalo videomedžiagos kadras)

Įsivaizduokite, kad bandote prisiminti gana neįprastą žodį, kurį retai naudojate, pavyzdžiui, tą, kuris apibūdina nuolydį grindyse, dažnai randamą kino teatruose ir paskaitų salėse. Jūs ieškote savo atmintyje. Tai kažkas panašaus į rampą… galbūt?.. Ne, ne tas. Ir, štai jis! Atsiminėt. Šis procesas, kai ieškoma panašių žodžių, kad rastumėte tinkamą, primena asociatyviąją atmintį, kurią fizikas J. Hopfieldas atrado 1982 m. Hopfieldo tinklas gali saugoti modelius ir turi metodą jiems atkurti. Kai tinklui pateikiamas nepilnas arba šiek tiek iškraipytas modelis, metodas gali surasti saugomą modelį, kuris yra labiausiai panašus.

Hopfieldas anksčiau naudojo savo fizikos žinias, kad nagrinėtų teorines problemas molekulinėje biologijoje. Kai buvo pakviestas į susitikimą apie neuromokslą, jis susidūrė su tyrimais apie smegenų struktūrą. Jis buvo sužavėtas to, ką sužinojo, ir pradėjo galvoti apie paprastų neuroninių tinklų dinamiką. Kai neuronai veikia kartu, jie gali sukelti naujas ir galingas savybes, kurios nėra akivaizdžios tiems, kurie žiūri tik į atskirus tinklo komponentus. Mokslininkas pasinaudojo žiniomis apie magnetines medžiagas, kurios turi specialias savybes dėl jų atomų sukinių – savybės, kuri kiekvieną atomą daro mažyčiu magnetu. Kaimyninių atomų sukimasis veikia vienas kitą; tai gali leisti susidaryti domenams, kuriuose sukimasis vyksta ta pačia kryptimi. Jis sugebėjo sukurti modelinį tinklą su mazgais ir jungtimis, naudodamas fiziką, kuri aprašo, kaip magnetinės medžiagos vystosi, kai sukiniai veikia vienas kitą.

Hopfieldo sukurtas tinklas turi mazgus, kurie visi yra sujungti skirtingo stiprumo jungtimis. Kiekvienas mazgas gali saugoti individualią vertę – Hopfieldo pirmame darbe tai galėjo būti arba 0, arba 1, kaip pikseliai juodai baltame paveikslėlyje.

Hopfieldas apibūdino bendrą tinklo būseną savybe, kuri yra lygiavertė energijai, randamai sukinių sistemų fizikoje; energija apskaičiuojama pasitelkiant formulę, kuri naudoja visas mazgų vertes ir visus jungčių tarp jų stiprumus. Hopfieldo tinklas yra programuojamas, kai vaizdas pateikiamas mazgams, kuriems suteikiama juoda (0) arba balta (1) vertė. Tinklo jungtys tada yra koreguojamos naudojant energijos formulę, kad išsaugotas vaizdas turėtų mažiausią energiją. Kai tinklui pateikiamas kitas modelis, yra taisyklė, pagal kurią einama per mazgus vienas po kito ir tikrinama, ar tinklas turi mažesnę energiją, jei to mazgo vertė yra pakeista. Jei paaiškėja, kad energija sumažėja, jei juodas pikselis tampa baltas, jis pakeičia spalvą. Ši procedūra tęsiasi, kol neįmanoma rasti jokių tolesnių patobulinimų. Kai šis taškas pasiekiamas, tinklas dažnai atkuria originalų vaizdą, pagal kurį buvo mokomas.

Tai gali neatrodyti taip įspūdingai, jei išsaugomas tik vienas modelis. Galbūt jūs svarstote, kodėl tiesiog neišsaugote paties vaizdo ir nepalyginate jo su kitu testuojamu vaizdu, tačiau Hopfieldo metodas yra ypatingas, nes galima išsaugoti kelis vaizdus vienu metu ir tinklas paprastai geba juos atskirti.

(Johano Jarnestado / Švedijos Karališkosios mokslų akademijos iliustracija)

Hopfieldas palygino tinklo būsenos paiešką su kamuolio ridenimu per viršūnių ir slėnių kraštovaizdį, su trintimi, kuri lėtina jo judėjimą. Jei kamuolys numetamas tam tikroje vietoje, jis riedės į artimiausią slėnį ir ten sustos. Jei tinklui pateikiamas modelis, kuris yra artimas vienam iš išsaugotų modelių, jis panašiai judės pirmyn, kol pasieks slėnio dugną energijos kraštovaizdyje, taip surasdamas artimiausią modelį savo atmintyje.

Hopfieldo tinklas gali būti naudojamas atkurti duomenims, kuriuose yra triukšmo arba kurie buvo iš dalies ištrinti. Mokslininkas ir kiti toliau plėtojo Hopfieldo tinklo veikimo detales, įskaitant mazgus, kurie gali saugoti bet kokią vertę, ne tik nulį ar vienetą. Jei galvojate apie mazgus kaip apie pikselius paveikslėlyje, jie gali turėti skirtingas spalvas, ne tik juodą ar baltą. Patobulinti metodai leido išsaugoti daugiau vaizdų ir juos atskirti net tada, kai jie yra gana panašūs. Taip pat galima identifikuoti ar atkurti bet kokią informaciją, jei ji yra sudaryta iš daugelio duomenų taškų.

Net labai maži vaikai gali parodyti skirtingus gyvūnus ir užtikrintai pasakyti, ar tai šuo, katė ar voverė. Jie kartais gali suklysti, bet gana greit jie beveik visada susigaudo. Vaikas gali to išmokti net nematydamas jokių diagramų ar paaiškinimų apie tokias sąvokas kaip rūšis ar žinduolis. Susidūręs su keliais kiekvieno tipo gyvūnų pavyzdžiais, skirtingos kategorijos susidėlioja vaiko galvoje. Žmonės išmoksta atpažinti katę, suprasti žodį ar įeiti į kambarį ir pastebėti, kad kažkas pasikeitė, nagrinėdami aplinką.

(Prof. Geoffrey Hintonas. Ramsey Cardy / Wikipedia.org nuotrauka)

Kai Hopfieldas paskelbė savo straipsnį apie asociatyviąją atmintį, Geoffrey Hintonas dirbo Carnegie Mellon universitete Pitsburge, JAV. Jis anksčiau studijavo eksperimentinę psichologiją ir dirbtinį intelektą Anglijoje bei Škotijoje ir svarstė, ar mašinos galėtų išmokti apdoroti modelius panašiai kaip žmonės, surasdamos savo kategorijas informacijai rūšiuoti ir interpretuoti. Kartu su savo kolega Terrence’u Sejnowski’u, Hintonas pradėjo nuo Hopfieldo tinklo ir išplėtė jį, kurdamas kažką naujo, naudodamas statistinės fizikos idėjas.

Statistinė fizika aprašo sistemas, sudarytas iš daugelio panašių elementų, pavyzdžiui, molekulių dujose. Sunku arba neįmanoma sekti visas atskiras molekules dujose, tačiau galima jas nagrinėti kolektyviai, kad būtų nustatytos bendros dujų savybės, tokios kaip slėgis ar temperatūra. Yra daug galimų būdų, kaip dujų molekulės gali pasiskirstyti per savo tūrį skirtingais greičiais ir vis tiek sukurti tas pačias bendras savybes.

Būsenos, kuriose atskiri komponentai gali bendrai egzistuoti, gali būti analizuojamos naudojant statistinę fiziką, ir jų atsiradimo tikimybė gali būti apskaičiuota. Kai kurios būsenos yra labiau tikėtinos nei kitos; tai priklauso nuo turimos energijos kiekio, kuris aprašomas XIX amžiaus fiziko Ludwigo Boltzmano lygtimi. Hintonas savo tinkle naudojo tą lygtį, ir metodas buvo paskelbtas 1985 metais pavadinimu Boltzmano mašina.

Boltzmano mašina dažniausiai naudojama su dviejų tipų mazgais. Informacija tiekiama vienai grupei, vadinamai matomais mazgais. Kiti mazgai sudaro paslėptąjį sluoksnį. Paslėptųjų mazgų vertės ir jungtys taip pat prisideda prie viso tinklo energijos.

Mašina veikia taikant taisyklę, pagal kurią mazgų vertės atnaujinamos po vieną. Galiausiai mašina pasiekia būseną, kurioje mazgų modelis gali keistis, tačiau viso tinklo savybės išlieka tos pačios. Kiekvienas galimas modelis tada turės specifinę tikimybę, kurią lemia tinklo energija pagal Boltzmano lygtį. Kai mašina sustoja, ji sukuria naują modelį, todėl Boltzmano mašina yra ankstyvas generatyvinio modelio pavyzdys.

(Pexels.com nuotrauka)

Boltzmano mašina gali mokytis ne iš instrukcijų, o iš pateiktų pavyzdžių. Ji mokoma atnaujinant tinklo jungčių vertes taip, kad pavyzdiniai modeliai, kurie buvo pateikti matomiems mazgams mokymo metu, turėtų didžiausią tikimybę atsirasti, kai mašina veikia. Jei tas pats modelis kartojamas kelis kartus mokymo metu, šio modelio tikimybė dar labiau padidėja. Mokymas taip pat veikia naujų modelių, panašių į pavyzdžius, kuriuos mašina buvo mokyta, išvesties tikimybę.

Išmokyta Boltzmano mašina gali atpažinti pažįstamus bruožus informacijoje, kurios anksčiau nematė. Įsivaizduokite, kad susitinkate draugo brolį ar seserį ir iš karto matote, kad jie turi būti susiję. Panašiai Boltzmano mašina gali atpažinti visiškai naują pavyzdį, jei jis priklauso kategorijai, rastai mokymo medžiagoje, ir atskirti jį nuo medžiagos, kuri yra nepanaši.

Pradinėje formoje Boltzmano mašina yra gana neefektyvi ir užtrunka ilgai, kol suranda sprendimus. Situacija tampa įdomesnė, kai ji vystoma įvairiais būdais, kuriuos Hintonas toliau tyrinėjo. Vėlesnės versijos buvo supaprastintos, nes kai kurių vienetų jungtys buvo pašalintos. Pasirodo, kad tai gali padaryti mašiną efektyvesnę.

1990-aisiais daugelis tyrėjų prarado susidomėjimą dirbtiniais neuroniniais tinklais, tačiau Hintonas buvo vienas iš tų, kurie toliau dirbo šioje srityje. Jis taip pat padėjo pradėti naują įdomių rezultatų atsiradimą; 2006 metais jis ir jo kolegos Simonas Osindero, Yee Whye Teh ir Ruslanas Salakhutdinovas sukūrė metodą, kaip iš anksto mokyti tinklą su serija Boltzmano mašinų sluoksnių, vienas ant kito. Šis išankstinis mokymas suteikė tinklo jungtims geresnį pradinį išeigos tašką, kuris optimizavo tinklo gebėjimą atpažinti elementus paveikslėliuose.

Boltzmano mašina dažnai naudojama kaip didesnio tinklo dalis. Pavyzdžiui, ji gali būti naudojama rekomenduojant filmus ar televizijos serialus pagal žiūrovo pageidavimus.

(Šio straipsnio autorius dr. Sergejus Orlovas. Mariaus Linausko nuotrauka)

Dabartinė dirbtinio intelekto plėtra tapo įmanoma dėl prieigos prie didžiulių duomenų kiekių, kurie gali būti naudojami tinklams mokyti, ir dėl didžiulės skaičiavimo galios padidėjimo. Šiandienos dirbtiniai neuroniniai tinklai dažnai yra didžiuliai ir sudaryti iš daugelio sluoksnių. Šie tinklai vadinami giliaisiais neuroniniais tinklais, o jų mokymo būdas vadinamas giliuoju mokymusi.

Greitas žvilgsnis į Hopfieldo straipsnį apie asociatyviąją atmintį, išleistą 1982 m., suteikia tam tikrą perspektyvą apie DI vystymąsi. Tyrime jis naudojo tinklą su 30 mazgų. Jei visi mazgai yra sujungti tarpusavyje, yra 435 jungtys. Mazgai turi savo vertes, jungtys turi skirtingą stiprumą ir iš viso yra mažiau nei 500 parametrų, kuriuos reikia stebėti. Jis taip pat bandė tinklą su 100 mazgų, tačiau tai buvo per sudėtinga, atsižvelgiant į tuo metu naudotą kompiuterį. Galime palyginti tai su šiandieniniais dideliais kalbos modeliais, kurie yra sukurti kaip tinklai, galintys turėti daugiau nei trilijoną (milijoną milijonų) parametrų.

Kadangi fizika prisidėjo prie mašininio mokymosi įrankių kūrimo, įdomu matyti, kaip ta pati fizika, kaip tyrimų sritis, taip pat gauna naudos iš dirbtinių neuroninių tinklų. Mašininis mokymasis jau seniai naudojamas srityse, kurias galime atpažinti iš ankstesnių Nobelio fizikos premijų. Pavyzdžiui, galime prisiminti mašininio mokymosi naudojimą didžiulių duomenų kiekių apdorojimui, reikalingam Higso bozono dalelės atradimui. Kitos taikymo sritys apima triukšmo mažinimą matuojant gravitacines bangas iš susidūrusios juodosios skylės arba egzoplanetų paiešką.

Pastaraisiais metais ši technologija taip pat pradėta naudoti skaičiuojant ir prognozuojant molekulių ir medžiagų savybes, pavyzdžiui, skaičiuojant baltymų molekulių struktūrą, kuri lemia jų funkciją, arba nustatant, kurios naujos medžiagos versijos gali turėti geriausias savybes efektyvesnėms saulės baterijoms.