Kaip „Microsoft“ naujos kartos „BitNet“ architektūra padidina LLM efektyvumą


Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau


Vieno bito didelių kalbų modeliai (LLM) pasirodė kaip perspektyvus būdas padaryti generatyvųjį AI prieinamesnį ir įperkamą. Pateikdami modelio svorį su labai ribotu bitų skaičiumi, 1 bito LLM žymiai sumažina atmintį ir skaičiavimo išteklius, reikalingus jiems paleisti.

„Microsoft Research“ peržengė 1 bito LLM ribas naudodama savo „BitNet“ architektūrą. Naujame dokumente mokslininkai pristato BitNet a4.8 – naują techniką, kuri dar labiau pagerina 1 bito LLM efektyvumą neprarandant jų našumo.

1 bito LLM atsiradimas

Tradiciniai LLM naudoja 16 bitų slankiojo kablelio skaičius (FP16), kad parodytų savo parametrus. Tam reikia daug atminties ir skaičiavimo išteklių, o tai riboja LLM pasiekiamumą ir diegimo galimybes. Vieno bito LLM sprendžia šį iššūkį drastiškai sumažindami modelių svorio tikslumą ir suderindami visiško tikslumo modelių našumą.

Ankstesni „BitNet“ modeliai naudojo 1,58 bitų reikšmes (-1, 0, 1), kad parodytų modelio svorį ir 8 bitų reikšmes aktyvinimams. Šis metodas žymiai sumažino atminties ir įvesties / išvesties sąnaudas, tačiau matricos dauginimo skaičiavimo sąnaudos išliko kliūtimi, o neuroninių tinklų optimizavimas naudojant itin mažų bitų parametrus yra sudėtingas.

Šią problemą padeda išspręsti du būdai. Sumažinimas sumažina skaičiavimų skaičių, sumažinant aktyvinimus mažesniais dydžiais. Tai ypač naudinga LLM, nes aktyvinimo reikšmės paprastai pasiskirsto ilgą laiką, kai yra keletas labai didelių ir daug mažų.

Kita vertus, kvantavimas naudoja mažesnį bitų skaičių, kad pavaizduotų aktyvacijas, todėl sumažėja jų apdorojimo skaičiavimo ir atminties sąnaudos. Tačiau paprasčiausiai sumažinus suaktyvinimo tikslumą gali atsirasti didelių kvantavimo klaidų ir pablogėti našumas.

Be to, išskaidymo ir kvantavimo derinimas yra sudėtingas ir kelia ypatingų problemų mokant 1 bito LLM.

„Tiek kvantifikavimas, tiek retinimas sukuria nediferencijuojamas operacijas, todėl gradiento skaičiavimas treniruočių metu yra ypač sudėtingas“, – „VentureBeat“ sakė Furu Wei, „Microsoft Research“ partnerių tyrimų vadovas.

Gradiento skaičiavimas yra būtinas apskaičiuojant klaidas ir atnaujinant parametrus treniruojant neuroninius tinklus. Tyrėjai taip pat turėjo užtikrinti, kad jų metodai galėtų būti efektyviai įdiegti esamoje aparatinėje įrangoje, išlaikant tiek retinimo, tiek kvantavimo pranašumus.

BitNet a4.8

„BitNet a4.8“ sprendžia 1 bito LLM optimizavimo iššūkius, tyrėjų apibūdindami kaip „hibridinį kvantavimą ir retinimą“. Jie tai pasiekė sukūrę architektūrą, kuri selektyviai taiko kvantavimą arba retinimą skirtingiems modelio komponentams, atsižvelgiant į specifinį aktyvavimo paskirstymo modelį. Architektūra naudoja 4 bitų aktyvavimus dėmesio ir perdavimo tinklo (FFN) sluoksniams įvesti. Jis naudoja 8 bitų iškraipymą tarpinėms būsenoms, išlaikant tik 55% viršutinių parametrų. Architektūra taip pat optimizuota, kad būtų galima pasinaudoti esama aparatūra.

„Naudojant BitNet b1.58, 1 bitų LLM išvados kliūtis pereina iš atminties / IO į skaičiavimą, kurį riboja aktyvinimo bitai (ty 8 bitai BitNet b1.58)“, – sakė Wei. „BitNet a4.8 paverčiame aktyvinimo bitus iki 4 bitų, kad galėtume panaudoti 4 bitų branduolius (pvz., INT4/FP4), kad GPU įrenginiuose būtų galima padaryti 2 kartus greičiau LLM išvadas. 1 bito modelio svorių derinys iš BitNet b1.58 ir 4 bitų aktyvinimas iš BitNet a4.8 veiksmingai sprendžia tiek atminties / IO, tiek skaičiavimo apribojimus atliekant LLM išvadas.

BitNet a4.8 taip pat naudoja 3 bitų reikšmes, kad parodytų rakto (K) ir reikšmės (V) būsenas dėmesio mechanizme. KV talpykla yra esminis transformatorių modelių komponentas. Jis išsaugo ankstesnių žetonų atvaizdus sekoje. Sumažinus KV talpyklos verčių tikslumą, „BitNet a4.8“ dar labiau sumažina atminties poreikį, ypač kai dirbama su ilgomis sekomis.

BitNet a4.8 pažadas

Eksperimentiniai rezultatai rodo, kad „BitNet a4.8“ našumas yra panašus į jo pirmtaką „BitNet b1.58“, naudojant mažiau skaičiavimo ir atminties.

Palyginti su pilno tikslumo Llama modeliais, BitNet a4.8 sumažina atminties naudojimą 10 kartų ir pasiekia 4 kartus didesnį greitį. Palyginti su BitNet b1.58, jis pasiekia 2 kartus pagreitį per 4 bitų aktyvinimo branduolius. Tačiau dizainas gali duoti daug daugiau.

„Numatomas skaičiavimo patobulinimas pagrįstas esama aparatine įranga (GPU), – sakė Wei. „Naudojant aparatinę įrangą, specialiai optimizuotą 1 bito LLM, skaičiavimo patobulinimai gali būti žymiai patobulinti. „BitNet“ pristato naują skaičiavimo paradigmą, kuri sumažina matricos daugybos poreikį, o tai yra pagrindinis dėmesys dabartiniam aparatinės įrangos projektavimo optimizavimui.

Dėl „BitNet a4.8“ efektyvumo jis ypač tinkamas diegti LLM kraštutiniuose įrenginiuose ir ribotų išteklių turinčiuose įrenginiuose. Tai gali turėti svarbių pasekmių privatumui ir saugumui. Įgalinus įrenginiuose esančius LLM, vartotojai gali pasinaudoti šių modelių galia nesiunčiant duomenų į debesį.

Wei ir jo komanda tęsia savo darbą su 1 bitų LLM.

„Mes ir toliau tobuliname savo tyrimus ir 1 bitų LLM eros viziją“, – sakė Wei. „Nors šiuo metu daugiausia dėmesio skiriame modelių architektūrai ir programinės įrangos palaikymui (ty bitnet.cpp), siekiame ištirti bendrą modelių architektūros ir aparatinės įrangos projektavimą ir evoliuciją, kad visiškai išnaudotume 1 bito LLM potencialą.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -