Atvirojo kodo „Mamba 3“ pranoksta „Transformer“ architektūrą su beveik 4% patobulintu kalbos modeliavimu ir sumažintu delsimu

Generacinė dirbtinio intelekto era daugeliui žmonių prasidėjo 2022 m. pabaigoje paleidus OpenAI ChatGPT, tačiau pagrindinė technologija – "Transformatorius" neuroninio tinklo architektūra, leidžianti dirbtinio intelekto modeliams skirtingai pasverti skirtingų žodžių sakinyje (arba vaizdo pikselių) svarbą ir lygiagrečiai lavinti informaciją. "Dėmesio – tai viskas, ko jums reikia."

Vis dėlto, nors Transformatoriai užtikrina neprilygstamą modelių kokybę ir yra daugelio pagrindinių šiandien naudojamų generuojamųjų AI modelių pagrindas, skaičiavimo požiūriu jie yra pertekliniai. Juos apsunkina kvadratinio skaičiavimo ir tiesinės atminties poreikiai, dėl kurių didelio masto išvados yra brangios, dažnai pernelyg brangios. Todėl kai kurie tyrinėtojai nori juos patobulinti 2023 m. kuriant naują architektūrą „Mamba“, kuri buvo įtraukta į hibridinius „Mamba-Transformer“ modelius, tokius kaip „Nvidia“ „Nemotron 3 Super“.

Dabar tie patys tyrinėtojai, už originalios Mamba architektūros, įskaitant lyderius Albertą Gu iš Carnegie Mellon ir Tri Dao iš Prinstono, išleido naujausią savo naujosios architektūros versiją Mamba-3 kaip kalbinį modelį pagal leistiną Apache 2.0 atvirojo kodo licenciją, todėl ji iš karto pasiekiama kūrėjams, įskaitant įmones komerciniais tikslais. Techninis dokumentas taip pat buvo paskelbtas arXiv.org.

Šis modelis rodo paradigmos pasikeitimą nuo treniruočių efektyvumo prie treniruočių efektyvumo "išvada-pirmiausia" dizainas. Kaip Gu pažymėjo oficialiame pranešime, nors Mamba-2 daugiausia dėmesio skyrė tam, kad būtų pašalintos kliūtys prieš treniruotę, o Mamba-3 siekiama išspręsti problemas. "šaltas GPU" problema: realybė, kad dekoduojant šiuolaikinė aparatinė įranga dažnai nenaudojama ir laukia atminties judėjimo, o ne skaičiavimo.

Turinys:

Sumaištis (ne, ne įmonė) ir naujai atrastas Mamba 3 efektyvumas

Mamba, įskaitant Mamba 3, yra valstybės erdvės modelio (SSM) tipas.

Tai iš tikrųjų yra didelės spartos "santraukos mašina" už AI. Nors daugelis populiarių modelių (pvz., ChatGPT modelių) turi iš naujo išnagrinėti kiekvieną žodį, kurį jie jau matė, kad suprastų, kas bus toliau (kas lėtėja ir brangsta, kuo ilgiau trunka pokalbis), SSM palaiko kompaktišką, nuolat besikeičiančią vidinę būseną. Ši būsena iš esmės yra skaitmeninė "psichinis momentas" visos duomenų istorijos.

Kai atsiranda naujos informacijos, modelis tiesiog atnaujina šią momentinę nuotrauką, o ne viską perskaito iš naujo. Tai leidžia AI apdoroti didžiulius informacijos kiekius, pavyzdžiui, ištisas knygų bibliotekas ar ilgas DNR grandines, neįtikėtinu greičiu ir daug mažesniais atminties reikalavimais.

Norint įvertinti Mamba-3 šuolį, pirmiausia reikia suprasti sumišimą – pagrindinę metriką, naudojamą tyrime modelio kokybei matuoti.

Kalbos modeliavimo kontekste sumišimas yra matas, kaip "nustebęs" modelis sukurtas pagal naujus duomenis.

Pagalvokite apie modelį kaip apie profesionalų lošėją. Jei modelis yra labai sutrikęs, jis nežino, kur atlikti statymus; daugelis galimų kitų žodžių laiko vienodai tikėtinus.

Mažesnis sutrikimo balas rodo, kad modelis yra daugiau "tam tikras"– ji geriau suvokia pagrindinius žmogaus kalbos modelius. Dirbtinio intelekto kūrėjams sumišimas yra labai tikslus intelekto šaltinis.

Mamba-3 tyrimo proveržis yra tas, kad jis pasiekia panašų sumišimą, kaip ir jo pirmtakas Mamba-2, naudodamas tik pusę valstijos dydžio. Tai reiškia, kad modelis gali būti toks pat protingas, o jo valdymas yra dvigubai efektyvesnis.

Nauja filosofija

Filosofija, kuria vadovaujasi Mamba-3, yra esminis pokytis, kaip mes galvojame apie AI "intelektas" palyginti su aparatūros, kurioje ji veikia, greičiu. Ankstesnė karta Mamba-2 buvo skirta treniruotis rekordiniu greičiu, o Mamba-3 yra "išvada-pirmiausia" architektūra – išvada, nurodanti, kaip AI modeliai pateikiami galutiniams vartotojams, naudojant tokias svetaines kaip „ChatGPT“ ar „Google Gemini“, arba per programų programavimo sąsajas (API).

Pagrindinis „Mamba 3“ tikslas yra maksimaliai išnaudoti kiekvieną sekundę, kai kompiuterio lustas (GPU) yra aktyvus, užtikrinant, kad modelis kuo labiau mąstytų, neverčiant vartotojo laukti atsakymo.

Kalbos modelių pasaulyje kiekvienas tikslumo taškas yra sunkiai pasiekiamas. 1,5 milijardo parametrų skalėje – pažangiausias "MIMO" Mamba-3 variantas pasiekė 57,6 % vidutinį etalonų tikslumą, o tai yra 2,2 procentinio punkto šuolis, palyginti su standartiniu pramonės transformatoriumi.

Nors dviejų taškų šuolis gali atrodyti kuklus, jis iš tikrųjų reiškia beveik 4% santykinį kalbos modeliavimo pajėgumų padidėjimą, palyginti su Transformer bazine linija. Dar įspūdingiau, kaip minėta pirmiau, Mamba-3 gali prilygti nuspėjamai savo pirmtako kokybei, naudodama tik pusę vidinės "valstybės dydis," efektyviai užtikrina tokį patį intelekto lygį su žymiai mažesniu atminties vėlavimu.

Daugelį metų veiksmingos „Transformerių“ alternatyvos kentėjo nuo a "logikos spraga"– jiems dažnai nepavykdavo atlikti paprastas samprotavimo užduotis, pavyzdžiui, sekti šablonus ar išspręsti pagrindinę aritmetiką, nes jų vidinė matematika buvo per griežta. Mamba-3 tai išsprendžia įvesdama sudėtingos vertės būsenas.

Šis matematinis atnaujinimas veikia kaip vidinis kompasas, leidžiantis modeliui pavaizduoti "rotacinis" logika. Naudodamiesi šiuo "sukamieji" Mamba-3 gali beveik tobulai išspręsti loginius galvosūkius ir būsenos sekimo užduotis, apie kurias jo pirmtakai galėjo tik spėlioti, pagaliau prilygindamas tiesinių modelių protavimo galią pažangiausioms sistemoms.

Paskutinė dėlionės dalis yra tai, kaip Mamba-3 sąveikauja su fizine aparatine įranga. Dauguma AI modelių šiandien yra "prikaustytas prie atminties," reiškia, kad kompiuterio lustas didžiąją laiko dalį praleidžia nenaudojamas, laukdamas, kol duomenys iš atminties persikels į procesorių.

Mamba-3 pristato Multi-Input, Multi-Output (MIMO) formulę, kuri iš esmės keičia šią dinamiką. Atlikdama iki keturių kartų daugiau matematinių operacijų lygiagrečiai kiekviename žingsnyje, Mamba-3 panaudoja anksčiau "tuščiąja eiga" galia. Tai leidžia modeliui padaryti daug daugiau "mąstymas" už kiekvieną sugeneruotą žodį nepailgindamas faktinio laiko, kurį vartotojas praleidžia laukdamas atsakymo. Daugiau apie juos žemiau.

Trys nauji technologiniai šuoliai

Linijinių modelių patrauklumas visada buvo nuolatiniai atminties reikalavimai ir tiesinis skaičiavimo mastelio keitimas.

Tačiau, kaip pažymi Mamba 3 autoriai, yra "nemokamų pietų nėra". Nustatydami būsenos dydį, kad būtų užtikrintas efektyvumas, šie modeliai yra priversti suspausti visą istorinį kontekstą į vieną atvaizdą – tai visiškai priešinga nuolat augančiai transformatoriaus KV talpyklai. Mamba-3 patraukia tris konkrečias svirtis, kad ta fiksuota būsena veiktų daugiau.

1. Eksponentinė-trapecinė diskretizacija

Būsenos erdvės modeliai iš esmės yra nuolatinio laiko sistemos, kurios turi būti "diskretizuotas" tvarkyti atskiras skaitmeninių duomenų sekas.

Buvo remiamasi ankstesnėmis iteracijomis "Eksponentinis-Euleris" diskretizacija – euristika, pateikusi tik pirmos eilės sistemos aproksimaciją.

Mamba-3 pristato a apibendrinta trapecijos taisyklėpateikiantis antros eilės tikslų aproksimaciją. Tai ne tik matematinis patikslinimas; tai sukelia an "numanoma konvoliucija" pagrindinio pasikartojimo ribose.

Sujungę tai su aiškiais B ir C šališkumo terminais, mokslininkai sugebėjo pašalinti trumpą priežastinį ryšį, kuris daugelį metų buvo pasikartojančių architektūrų pagrindas.

2. Sudėtingos vertės SSM ir "Virvės triukas"

Viena iš atkakliausių linijinių modelių kritikos buvo jų nesugebėjimas išspręsti paprastų būsenos sekimo užduočių, tokių kaip bitų sekos pariteto nustatymas.

Šis gedimas kyla dėl to, kad perėjimo matrica apribojama iki realių skaičių, o tai neleidžia modeliui pateikti "rotacinis" dinamika.Mamba-3 įveikia tai, matydamas pagrindinį SSM kaip sudėtingą.

Naudojant tai, ką komanda vadina "Virvės triukas," jie parodo, kad kompleksinės vertės būsenos atnaujinimas yra matematiškai lygiavertis nuo duomenų priklausomam sukamajam įterpimui (RoPE), taikomam įvesties ir išvesties projekcijoms.

Tai leidžia Mamba-3 išspręsti sintetines samprotavimo užduotis, kurios Mamba-2 buvo neįmanomos.

3. MIMO: Aritmetinio intensyvumo didinimas

Didžiausias išvadų efektyvumo šuolis atsiranda dėl perėjimo nuo vienos įvesties, vienos išvesties (SISO) prie Kelių įėjimų, kelių išėjimų (MIMO) SSM.

Standartiniame SSM būsenos atnaujinimas yra išorinio produkto operacija, kuri yra labai susieta su atmintimi. Perjungus į matricos daugyba pagrįstą būsenos atnaujinimą, Mamba-3 padidina "aritmetinis intensyvumas" modelio – FLOP ir atminties srauto santykis.

Tai leidžia modeliui atlikti daugiau skaičiavimų per atmintį susieto dekodavimo fazę. Iš esmės Mamba-3 naudoja "tuščiąja eiga" apskaičiuokite GPU branduolius, kad padidintumėte modelio galią "nemokamai," išlaikant tokį patį dekodavimo greitį kaip ir paprastesni pirmtakai.

Ką Mamba 3 reiškia įmonėms ir AI kūrėjams

Įmonėms Mamba-3 reiškia strateginį DI diegimo bendrųjų nuosavybės sąnaudų (TCO) pokytį.

Kaina ir našumas: Pagal suderintų parametrų veikimą Mamba-3 (MIMO) atitinka Mamba-2 sudėtingumą, naudodama pusę būsenos dydžio. Diegiant įmonėje, tai veiksmingai padvigubina išvadų pralaidumą tos pačios aparatinės įrangos plotui.
Agentinės darbo eigos: Organizacijoms pereinant prie lygiagrečių agentų darbo eigų (pvz., automatinio kodavimo ar klientų aptarnavimo agentų realiuoju laiku), mažos delsos generavimo poreikis didėja eksponentiškai. Mamba-3 sukurtas specialiai tam, kad neleistų GPU aparatinei įrangai sėdėti "šalta" atliekant šias užduotis.
Hibridinis pranašumas: Tyrėjai prognozuoja, kad įmonės AI ateitis slypi tame hibridiniai modeliai. Sujungdamos Mamba-3 su dėmesiu sau, organizacijos gali derinti efektyvius dalykus "atmintis" SSM su tiksliais "duomenų bazėje" transformatorių saugykla.

Prieinamumas, licencijavimas ir naudojimas

Mamba-3 nėra tik teorinis mokslinis darbas; tai visiškai realizuotas atvirojo kodo leidimas, kurį galima nedelsiant naudoti su modelio kodu, paskelbtu Github.

Projektas išleistas pagal Apache-2.0 licenciją. Tai leistina, verslui palanki licencija, leidžianti nemokamai naudoti, modifikuoti ir komerciškai platinti, nereikalaujant atskleisti patentuoto šaltinio kodo.

Šis leidimas tinka kūrėjams, kuriantiems ilgo konteksto programas, realaus laiko samprotavimo agentus arba tiems, kurie siekia sumažinti GPU sąnaudas didelės apimties gamybos aplinkoje.

Vadovauja valstybinių kosminių modelių (SSM) revoliucijai

Pranešimas buvo sutiktas entuziastingai socialinėje žiniasklaidoje, ypač dėl "studentų vadovaujamas" projekto pobūdis. Gu, kurio X/Twitter biografijoje jis apibūdinamas kaip "vadovavo SSM revoliucijai," atidavė visus mokinių vadovus, įskaitant Akašas Lahoti ir Kevinas Y. Li

.Gu gija pabrėžė komandos pasitenkinimą dizainu:

"Esame labai patenkinti galutiniu modelio dizainu! Trys pagrindiniai metodiniai pokyčiai yra įkvėpti (imo) tam tikros elegantiškos matematikos ir metodų."

Kadangi agentinės darbo eigos skatina išvadų paklausą "per stogą," Mamba-3 pasirodymas rodo, kad AI ateitis gali būti ne tik didžiausia, bet ir efektyviausia.

„Mamba-3“ sėkmingai suderino SSM su šiuolaikinės aparatinės įrangos tikrovėmis, įrodydama, kad net transformatoriaus amžiuje klasikinės valdymo teorijos principai vis dar turi gyvybiškai svarbų vaidmenį.

Nuoroda į informacijos šaltinį