OpenAI o3 rodo nepaprastą pažangą ARC-AGI srityje, sukeldamas diskusijas apie AI samprotavimus


Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau


Naujausias OpenAI o3 modelis pasiekė proveržį, kuris nustebino AI tyrimų bendruomenę. o3 surinko precedento neturintį 75,7 % itin sudėtingo ARC-AGI etalono standartinėmis skaičiavimo sąlygomis, o didelio skaičiavimo versija pasiekė 87,5 %.

Nors ARC-AGI pasiekimai yra įspūdingi, tai dar neįrodo, kad dirbtinio bendrojo intelekto (AGI) kodas buvo nulaužtas.

Abstract Reasoning Corpus

ARC-AGI etalonas yra pagrįstas Abstract Reasoning Corpus, kuris tikrina AI sistemos gebėjimą prisitaikyti prie naujų užduočių ir parodyti sklandų intelektą. ARC sudaro vaizdiniai galvosūkiai, kuriems reikia suprasti pagrindines sąvokas, tokias kaip objektai, ribos ir erdviniai ryšiai. Nors žmonės gali lengvai išspręsti ARC galvosūkius, demonstruodami labai nedaug, dabartinės AI sistemos su jais kovoja. ARC ilgą laiką buvo laikoma viena iš sudėtingiausių AI priemonių.

ARC galvosūkio pavyzdys (šaltinis: arcprize.org)

ARC buvo sukurtas taip, kad jo nebūtų galima apgauti modeliuojant milijonus pavyzdžių, tikintis aprėpti visus įmanomus galvosūkių derinius.

Etaloną sudaro viešas mokymo rinkinys, kuriame yra 400 paprastų pavyzdžių. Mokymo rinkinį papildo viešas vertinimo rinkinys, kuriame yra 400 galvosūkių, kurie yra sudėtingesni kaip priemonė įvertinti AI sistemų apibendrinimą. „ARC-AGI Challenge“ yra privačių ir pusiau privačių testų rinkinių, kurių kiekviename yra 100 galvosūkių, kurie nėra bendrinami su visuomene. Jie naudojami siekiant įvertinti kandidatų dirbtinio intelekto sistemas, nerizikuojant, kad duomenys bus nutekinti visuomenei ir užterštų būsimas sistemas išankstinėmis žiniomis. Be to, varžybose nustatomi skaičiavimo limitai, kuriuos dalyviai gali naudoti siekdami užtikrinti, kad galvosūkiai nebūtų sprendžiami žiaurios jėgos metodais.

Proveržis sprendžiant naujas užduotis

o1-peržiūra ir o1 surinko daugiausiai 32 % ARC-AGI. Kitas metodas, kurį sukūrė tyrėjas Jeremy Bermanas, naudojo hibridinį metodą, sujungiant Claude 3.5 Sonnet su genetiniais algoritmais ir kodo interpretatoriumi, kad būtų pasiektas 53%, aukščiausias balas prieš o3.

Tinklaraščio įraše François Chollet, ARC kūrėjas, apibūdino o3 našumą kaip „stebinantį ir svarbų dirbtinio intelekto galimybių padidėjimą, parodantį naujus užduočių pritaikymo gebėjimus, kurių dar nebuvo GPT šeimos modeliuose“.

Svarbu pažymėti, kad naudojant daugiau skaičiavimo ankstesnių kartų modeliuose šių rezultatų nepavyko pasiekti. Atsižvelgiant į kontekstą, prireikė 4 metų, kol modeliai pagerėjo nuo 0 % su GPT-3 2020 m. iki tik 5 % su GPT-4o 2024 m. pradžioje. Nors mes mažai žinome apie o3 architektūrą, galime būti tikri, kad ne eilėmis didesnis už savo pirmtakus.

Įvairių modelių veikimas ARC-AGI (šaltinis: arcprize.org)

„Tai ne tik laipsniškas patobulinimas, bet ir tikras proveržis, žymintis kokybinį AI galimybių pokytį, palyginti su ankstesniais LLM apribojimais“, – rašė Chollet. „o3 yra sistema, galinti prisitaikyti prie užduočių, su kuriomis ji niekada anksčiau nesusidūrė ir, be abejo, artėja prie žmogaus lygio našumo ARC-AGI srityje.

Verta paminėti, kad o3 našumas naudojant ARC-AGI kainuoja labai brangiai. Mažo skaičiavimo konfigūracija modeliui kainuoja 17–20 USD ir 33 milijonus žetonų, kad išspręstų kiekvieną galvosūkį, o esant dideliam skaičiavimo biudžetui, modelis sunaudoja maždaug 172 kartus daugiau skaičiavimų ir milijardus žetonų kiekvienai problemai. Tačiau, kadangi išvadų kaštai ir toliau mažėja, galime tikėtis, kad šie skaičiai taps pagrįstesni.

Nauja LLM samprotavimų paradigma?

Raktas sprendžiant naujas problemas yra tai, ką Chollet ir kiti mokslininkai vadina „programų sinteze“. Mąstymo sistema turėtų turėti galimybę sukurti mažas programas, skirtas labai specifinėms problemoms spręsti, tada sujungti šias programas, kad išspręstų sudėtingesnes problemas. Klasikiniai kalbų modeliai sukaupė daug žinių ir turi daug vidinių programų. Tačiau jiems trūksta kompozicijos, o tai neleidžia jiems išsiaiškinti galvosūkių, kurie nėra treniruojami.

Deja, informacijos apie tai, kaip o3 veikia po gaubtu, yra labai mažai, ir čia mokslininkų nuomonės išsiskiria. Chollet spėja, kad o3 naudoja tam tikro tipo programų sintezę, kuri naudoja mąstymo grandinės (CoT) samprotavimus ir paieškos mechanizmą kartu su atlygio modeliu, kuris įvertina ir patobulina sprendimus modeliui generuojant žetonus. Tai panašu į tai, ką atvirojo kodo samprotavimo modeliai tyrinėjo pastaruosius kelis mėnesius.

Kiti mokslininkai, tokie kaip Nathanas Lambertas iš Alleno dirbtinio intelekto instituto, teigia, kad „o1 ir o3 iš tikrųjų gali būti tik vienos kalbos modelio perėjimai į priekį“. Tą dieną, kai buvo paskelbta apie o3, OpenAI tyrėjas Natas McAleese’as X paskelbė, kad o1 yra „tiesiog LLM, apmokytas RL. o3 maitinamas toliau didinant RL už o1.

Tą pačią dieną Denny Zhou iš „Google DeepMind“ samprotavimo komandos pavadino paieškos ir dabartinio sustiprinimo mokymosi metodų derinį „aklaviete“.

„Gražiausias LLM samprotavimų dalykas yra tai, kad mąstymo procesas generuojamas autoregresiniu būdu, o ne pasikliaujant paieška (pvz., mcts) kartos erdvėje, nesvarbu, ar tai būtų gerai sureguliuotas modelis, ar kruopščiai suprojektuotas raginimas“, – paskelbė jis. ant X.

Nors detalės apie tai, kaip o3 priežastys gali atrodyti nereikšmingos, palyginti su ARC-AGI proveržiu, ji gali labai gerai apibrėžti kitą paradigmos pokytį mokant LLM. Šiuo metu vyksta diskusijos, ar LLM mastelio keitimo naudojant mokymo duomenis ir skaičiavimus įstatymai atsitrenkė į sieną. Ar bandymo laiko mastelio keitimas priklauso nuo geresnių mokymo duomenų ar skirtingų išvadų architektūrų, gali nustatyti kitą kelią.

Ne AGI

Pavadinimas ARC-AGI yra klaidinantis ir kai kurie jį prilygino AGI sprendimui. Tačiau Chollet pabrėžia, kad „ARC-AGI nėra AGI rūgšties testas“.

„ARC-AGI išlaikymas nereiškia AGI pasiekimo ir, tiesą sakant, aš nemanau, kad o3 dar yra AGI“, – rašo jis. „O3 vis dar nesugeba atlikti kai kurių labai lengvų užduočių, o tai rodo esminius žmogaus intelekto skirtumus.

Be to, jis pažymi, kad o3 negali savarankiškai išmokti šių įgūdžių ir remiasi išoriniais tikrintojais darant išvadas ir žmogaus pažymėtomis samprotavimo grandinėmis mokymo metu.

Kiti mokslininkai atkreipė dėmesį į OpenAI pateiktų rezultatų trūkumus. Pavyzdžiui, modelis buvo tiksliai sureguliuotas ARC mokymo rinkinyje, kad būtų pasiekti moderniausi rezultatai. „Spręstojui neturėtų prireikti daug specifinių „mokymų“ nei pačioje srityje, nei dėl kiekvienos konkrečios užduoties“, – rašo mokslininkė Melanie Mitchell.

Norėdamas patikrinti, ar šie modeliai turi tokią abstrakciją ir samprotavimus, kurioms buvo sukurtas ARC etalonas, Mitchellas siūlo „pažiūrėti, ar šios sistemos gali prisitaikyti prie konkrečių užduočių variantų arba samprotavimo užduočių naudojant tas pačias sąvokas, bet kitose srityse nei ARC. “

Chollet ir jo komanda šiuo metu dirba ties nauju etalonu, kuris yra sudėtingas o3 ir gali sumažinti jo rezultatą iki mažiau nei 30 % net ir esant dideliam biudžetui. Tuo tarpu žmonės galėtų išspręsti 95% galvosūkių be jokio mokymo.

„Sužinosite, kad AGI yra čia, kai užduočių, kurios yra lengvos paprastiems žmonėms, bet sunkios dirbtiniam intelektui, kūrimas tampa tiesiog neįmanomas“, – rašo Chollet.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -