Meta siūlo naujus keičiamo dydžio atminties sluoksnius, kurie pagerina žinias, mažina haliucinacijas


Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau


Kadangi įmonės ir toliau taiko didelių kalbų modelius (LLM) įvairiose programose, vienas iš pagrindinių iššūkių, su kuriais jos susiduria, yra gerinti faktines žinias apie modelius ir sumažinti haliucinacijas. Naujame dokumente „Meta AI“ mokslininkai siūlo „keičiamo dydžio atminties sluoksnius“, kurie galėtų būti vienas iš kelių galimų šios problemos sprendimų.

Keičiami atminties sluoksniai prideda daugiau parametrų prie LLM, kad padidintų jų mokymosi pajėgumus nereikalaujant papildomų skaičiavimo išteklių. Architektūra naudinga programoms, kuriose galite sutaupyti papildomos atminties faktinėms žinioms, bet taip pat norite, kad išvados greitis būtų ryškesnis.

Tankūs ir atminties sluoksniai

Tradiciniai kalbų modeliai naudoja „tankius sluoksnius“, kad savo parametruose užkoduotų didžiulius kiekius informacijos. Tankiuose sluoksniuose visi parametrai naudojami visu pajėgumu ir dažniausiai aktyvuojami tuo pačiu metu atliekant išvadą. Tankūs sluoksniai gali išmokti sudėtingų funkcijų, o jų didinimas reikalauja papildomų skaičiavimo ir energijos išteklių.

Priešingai, paprastų faktinių žinių atveju daug paprastesni sluoksniai su asociatyviomis atminties architektūromis būtų veiksmingesni ir geriau interpretuojami. Taip daro atminties sluoksniai. Jie naudoja paprastus negausius aktyvavimus ir rakto vertės paieškos mechanizmus, kad užkoduotų ir gautų žinias. Reti sluoksniai užima daugiau atminties nei tankūs sluoksniai, bet vienu metu naudoja tik nedidelę parametrų dalį, todėl jie yra daug efektyvesni.

Atminties sluoksniai egzistavo keletą metų, tačiau retai naudojami šiuolaikinėse giluminio mokymosi architektūrose. Jie nėra optimizuoti dabartiniams aparatūros greitintuvams.

Dabartinės pasienio LLM paprastai naudoja tam tikrą „ekspertų mišinio“ (MoE) architektūrą, kuri naudoja mechanizmą, neaiškiai panašų į atminties sluoksnius. AM modelius sudaro daug mažesnių ekspertų komponentų, kurie specializuojasi konkrečiose užduotyse. Išvados metu maršruto parinkimo mechanizmas nustato, kuris ekspertas suaktyvinamas pagal įvesties seką. PEER, architektūra, kurią neseniai sukūrė Google DeepMind, išplečia MoE milijonams ekspertų, suteikdama tikslesnę parametrų, kurie suaktyvinami atliekant išvadas, kontrolę.

Atminties sluoksnių atnaujinimas

Atminties sluoksniai yra lengvi skaičiuojant, bet daug atminties, o tai kelia specifinių iššūkių dabartinėms aparatinės ir programinės įrangos sistemoms. Savo darbe „Meta“ mokslininkai siūlo keletą modifikacijų, kurios išspręstų šiuos iššūkius ir sudarytų sąlygas jas panaudoti plačiu mastu.

Atminties sluoksniai gali saugoti žinias lygiagrečiai keliuose GPU nesulėtinant modelio (šaltinis: arXiv)

Pirma, tyrėjai sukonfigūravo atminties sluoksnius lygiagrečiai, paskirstydami juos keliuose GPU, kad būtų saugomi milijonai raktų ir verčių porų, nekeičiant kitų modelio sluoksnių. Jie taip pat įdiegė specialų CUDA branduolį, skirtą didelės atminties pralaidumo operacijoms valdyti. Be to, jie sukūrė parametrų pasidalijimo mechanizmą, kuris palaiko vieną atminties parametrų rinkinį keliuose modelio atminties sluoksniuose. Tai reiškia, kad peržvalgoms naudojami raktai ir reikšmės yra bendrinami sluoksniuose.

Šios modifikacijos leidžia įdiegti atminties sluoksnius LLM nesulėtinant modelio.

„Atminties sluoksniai su retais aktyvinimais puikiai papildo tankius tinklus, padidindami žinių įgijimo galimybes ir tuo pat metu lengvai skaičiuodami“, – rašo mokslininkai. „Jos gali būti efektyviai keičiamos ir suteikia praktikams patrauklią naują kryptį, kaip pakeisti atmintį su skaičiavimu.”

Norėdami išbandyti atminties sluoksnius, mokslininkai modifikavo Llama modelius, vieną ar daugiau tankių sluoksnių pakeisdami bendros atminties sluoksniu. Jie palygino atminties patobulintus modelius su tankiais LLM, taip pat MoE ir PEER modeliais atlikdami keletą užduočių, įskaitant faktinius atsakymus į klausimus, mokslines ir sveiko proto pasaulio žinias ir kodavimą.

Atminties modelis prieš tankius sluoksnius
1.3B atminties modelis (ištisinė linija), parengtas naudojant 1 trilijoną žetonų, priartėja prie 7B modelio (punktyrinė linija) našumo atliekant faktines atsakymo į klausimus užduotis, nes jam suteikiama daugiau atminties parametrų (šaltinis: arxiv)

Jų išvados rodo, kad atminties modeliai žymiai pagerėja, palyginti su tankiomis bazinėmis linijomis, ir konkuruoja su modeliais, kurie naudoja 2–4 ​​kartus daugiau skaičiavimo. Jie taip pat atitinka MoE modelių, turinčių tą patį skaičiavimo biudžetą ir parametrų skaičių, našumą. Modelio našumas ypač pastebimas atliekant užduotis, reikalaujančias faktinių žinių. Pavyzdžiui, atsakant į klausimus, atminties modelis su 1,3 milijardo parametrų priartėja prie Llama-2-7B, kuris buvo išmokytas naudoti dvigubai daugiau žetonų ir 10 kartų daugiau skaičiavimo, našumą.

Be to, tyrėjai nustatė, kad atminties modelių privalumai ir toliau atitinka modelio dydį, nes jie padidino savo eksperimentus nuo 134 milijonų iki 8 milijardų parametrų.

„Atsižvelgdami į šias išvadas, mes primygtinai pasisakome už tai, kad atminties sluoksniai turėtų būti integruoti į visas naujos kartos AI architektūras“, – rašo mokslininkai ir priduria, kad dar yra daug kur tobulėti. „Visų pirma, mes tikimės, kad bus sukurti nauji mokymosi metodai, kurie dar labiau padidintų šių sluoksnių veiksmingumą, leisdami mažiau pamiršti, mažiau haliucinacijų ir nuolat mokytis.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -