Žvilgsnis po transfomerų gaubtu, variklis, vedantis AI modelio evoliuciją


Prisijunkite prie mūsų kasdienių ir savaitinių informacinių biuletenių, kad gautumėte naujausius atnaujinimus ir išskirtinį turinį apie pramonės šakos pirmaujančią AI aprėptį. Sužinokite daugiau


Šiandien beveik kiekvienas pažangiausias AI produktas ir modelis naudoja transformatoriaus architektūrą. Dideli kalbų modeliai (LLM), tokie kaip GPT-4O, LLAMA, GEMINI ir CLAUDE, yra visi „Transformeriai“ pagrįsti, ir kitos AI programos, tokios kaip tekstas į kalbą, automatinis kalbos atpažinimas, vaizdo generavimas ir teksto modeliai yra transformatoriai. kaip jų pagrindinė technologija.

Kai AI greičiausiai nesunkys bet kada greitai, laikas duoti „Transformeriai“ mokėti, todėl norėčiau šiek tiek paaiškinti apie tai, kaip jie veikia, kodėl jie yra tokie svarbūs keičiamų sprendimų augimui ir kodėl kodėl Jie yra LLM stuburas.

Transformatoriai yra daugiau nei akys

Trumpai tariant, transformatorius yra neuroninio tinklo architektūra, skirta modeliuoti duomenų sekas, todėl jie yra idealūs tokioms užduotims kaip vertimas į kalbą, sakinio užbaigimas, automatinis kalbos atpažinimas ir dar daugiau. Transformatoriai iš tikrųjų tapo dominuojančia daugelio šių sekų modeliavimo užduotims architektūra, nes pagrindinį dėmesio-mechanizmą galima lengvai paraleliuoti, leidžiant atlikti didžiulį mastą treniruotės ir atliekant išvadas.

Iš pradžių 2017 m. Dokumente „Dėmesys yra viskas, ko jums reikia“ iš „Google“ tyrėjų, „Transformeris“ buvo pristatytas kaip kodavimo-dekoderio architektūra, specialiai skirta kalbų vertimui. Kitais metais „Google“ išleido dvikrypčių kodavimo įrenginių reprezentaciją iš „Transformerių“ (BERT), kurie galėtų būti laikomi vienu iš pirmųjų LLM – nors dabar laikomasi šių dienų standartų.

Nuo to laiko – ypač pagreitėjęs atsiradus GPT modeliams iš „Openai“ – tendencija buvo mokyti didesnius ir didesnius modelius su daugiau duomenų, daugiau parametrų ir ilgesnių kontekstinių langų.

Siekiant palengvinti šią raidą, buvo daug naujovių, tokių kaip: sudėtingesnė GPU aparatinė įranga ir geresnė programinė įranga daugialypės GPU mokymui; Technikos, tokios kaip ekspertų kiekybinis kiekis ir mišinys (MOE), mažinant atminties sunaudojimą; Nauji mokymo optimizatoriai, tokie kaip „Shampoo“ ir „Adamw“; Efektyvaus dėmesio apskaičiavimo metodai, tokie kaip „Flashatence“ ir „KV“ talpyklos kaupimas. Tikėtina, kad tendencija tęsis artimiausioje ateityje.

Savarankiškumo svarba transformatoriuose

Priklausomai nuo programos, transformatoriaus modelis seka kodavimo-dekūno architektūrą. Koderio komponentas sužino vektorių duomenų, kurie vėliau gali būti naudojami paskesnėms užduotims, tokioms kaip klasifikacija ir sentimentų analizė, vaizdas. Dekoderio komponentas paima vektorių arba latentinį teksto ar vaizdo vaizdavimą ir naudoja jį naujam tekstui generuoti, todėl jis yra naudingas tokioms užduotims kaip sakinio užbaigimas ir apibendrinimas. Dėl šios priežasties daugelis pažįstamų moderniausių modelių, tokių kaip GPT šeima, yra tik dekoderis.

Koderio-dekoderio modeliai sujungia abu komponentus, todėl jie yra naudingi vertimo ir kitoms sekos iki sekos užduotims. Tiek kodavimo, tiek dekoderio architektūroms pagrindinis komponentas yra dėmesio sluoksnis, nes tai leidžia modeliui išlaikyti kontekstą iš žodžių, kurie rodomi daug anksčiau tekste.

Dėmesys skiriamas dviem skoniais: savireguliacija ir kryžminimas. Savarankiškas požiūris naudojamas fiksuoti santykius tarp žodžių toje pačioje sekoje, tuo tarpu kryžminis lankymasis naudojamas fiksuoti ryšius tarp žodžių dviejose skirtingose ​​sekose. Kryžminis lankymas jungia kodavimo ir dekoderio komponentus modelyje ir vertimo metu. Pvz., Tai leidžia angliškam žodžiui „braškėms“ susieti su prancūzišku žodžiu „fraise“. Matematiškai tiek savęs, tiek kryžminimas yra skirtingos matricos daugybos formos, kurias galima padaryti ypač efektyviai naudojant GPU.

Dėl dėmesio sluoksnio transformatoriai gali geriau užfiksuoti ryšius tarp žodžių, atskirtų ilgu teksto kiekiu, tuo tarpu ankstesni modeliai, tokie kaip pasikartojantys neuroniniai tinklai (RNN) ir ilgos trumpalaikės atminties (LSTM) modeliai, praranda ankstesnių žodžių kontekstą iš ankstesnių žodžių konteksto iš ankstesnių žodžių konteksto. tekste.

Modelių ateitis

Šiuo metu transformatoriai yra dominuojanti daugelio naudojimo atvejų architektūra, kuriai reikalingi LLM ir gauti naudos iš daugiausiai tyrimų ir tobulėjimo. Nors panašu, kad tai greičiausiai nepasikeis bet kada, viena kitokia modelio klasė, kuri neseniai sulaukė susidomėjimo, yra valstybės ir erdvės modeliai (SSM), tokie kaip „Mamba“. Šis labai efektyvus algoritmas gali tvarkyti labai ilgas duomenų sekas, tuo tarpu transformatorius riboja konteksto langas.

Man labiausiai įdomūs „Transformer“ modelių pritaikymai yra multimodaliniai modeliai. Pavyzdžiui, „Openai“ GPT-4O gali tvarkyti tekstą, garso ir vaizdus-ir kiti teikėjai pradeda sekti. Multimodalinės programos yra labai įvairios, pradedant nuo vaizdo įrašų antraštės iki balso klonavimo iki vaizdo segmentavimo (ir dar daugiau). Jie taip pat suteikia galimybę padaryti AI prieinamesnę neįgaliesiems. Pvz., Aklą asmenį gali labai įteikti galimybė sąveikauti per balso ir garso komponentus, susijusius su multimodaline programa.

Tai jaudinanti erdvė, turinti daug galimybių atskleisti naujų naudojimo atvejus. Tačiau atsiminkite, kad bent jau artimiausioje ateityje daugiausia grindžiami „Transformerių“ architektūra.

Terrence’as Alsupas yra vyresnysis duomenų mokslininkas FINASTRA.

„DatadecisionMakers“

Sveiki atvykę į „VentureBeat“ bendruomenę!

„DatAdecisionMakers“ yra ta vieta, kur ekspertai, įskaitant techninius duomenis atliekančius žmones, gali pasidalyti su duomenimis susijusiomis įžvalgomis ir naujovėmis.

Jei norite perskaityti apie pažangiausias idėjas ir naujausią informaciją, geriausią praktiką ir duomenų bei duomenų technologijos ateitį, prisijunkite prie mūsų „DatadecisionMakers“.

Galite net apsvarstyti galimybę prisidėti prie savo straipsnio!

Skaitykite daugiau iš „DatAdecisionMakers“



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -