Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau
Kiekvieną savaitę – kartais kiekvieną dieną – pasauliui gimsta naujas moderniausias AI modelis. Kai žengiame į 2025 m., naujų modelių išleidimo tempas yra svaiginantis, jei ne varginantis. Amerikietiškojo kalnelio kreivė ir toliau eksponentiškai auga, o nuovargis ir nuostaba tapo nuolatiniais palydovais. Kiekvienas leidimas pabrėžia, kodėl tai konkretus modelis yra geresnis nei visi kiti, nes nesibaigiančios lyginamųjų indeksų ir juostinių diagramų kolekcijos užpildo mūsų sklaidos kanalus, kai stengiamės neatsilikti.
Prieš aštuoniolika mėnesių didžioji dauguma kūrėjų ir įmonių naudojo vieną AI modelį. Šiandien yra atvirkščiai. Retai galima rasti didelio masto verslą, kuris apsiribotų vieno modelio galimybėmis. Įmonės atsargiai žiūri į pardavėjų užsiblokavimą, ypač dėl technologijos, kuri greitai tapo pagrindine tiek ilgalaikės įmonės strategijos, tiek trumpalaikių pajamų dalimi. Komandoms vis rizikingiau statyti visus statymus dėl vieno didelio kalbos modelio (LLM).
Tačiau nepaisant šio susiskaidymo, daugelis modelių tiekėjų vis dar palaiko požiūrį, kad dirbtinis intelektas bus rinka, kuri nugalės viską. Jie teigia, kad žinių ir skaičiavimų, reikalingų geriausiems savo klasės modeliams parengti, yra nedaug, jie yra pateisinami ir stiprina save. Žvelgiant iš jų perspektyvos, AI modelių kūrimo ažiotažas galiausiai žlugs ir paliks vieną milžinišką dirbtinio bendrojo intelekto (AGI) modelį, kuris bus naudojamas viskam ir viskam. Turėti tik tokį modelį reikštų būti galingiausia kompanija pasaulyje. Šio prizo dydis pradėjo ginklavimosi varžybas dėl vis daugiau GPU, o kas kelis mėnesius į mokymo parametrų skaičių pridedamas naujas nulis.
Manome, kad šis požiūris yra klaidingas. Nebus vieno modelio, kuris valdys visatą, nei kitais metais, nei kitą dešimtmetį. Vietoj to, AI ateitis bus kelių modelių.
Kalbos modeliai yra neaiškios prekės
The Oksfordo ekonomikos žodynas apibrėžia prekę kaip „standartizuota prekė, kuri perkama ir parduodama dideliu mastu ir kurios vienetai yra keičiami“. Kalbos modeliai yra prekės dviem svarbiomis prasmėmis:
- Patys modeliai tampa vis labiau pakeičiami atliekant platesnį užduočių rinkinį;
- Mokslinių tyrimų patirtis, reikalinga šiems modeliams sukurti, tampa vis labiau paskirstyta ir prieinama – pasienio laboratorijos vos lenkia viena kitą, o nepriklausomi atvirojo kodo bendruomenės tyrėjai spokso jiems ant kulnų.
Tačiau nors kalbos modeliai keičiasi į prekes, jie tai daro netolygiai. Yra daugybė galimybių, kurias puikiai tinka bet kuris modelis – nuo GPT-4 iki „Mistral Small“. Tuo pačiu metu, kai pereiname prie paraščių ir kraštinių atvejų, matome vis didesnį skirtumą, kai kurie modelių teikėjai aiškiai specializuojasi kodų generavime, samprotavime, paieškos papildytame generavime (RAG) arba matematikoje. Tai veda prie nesibaigiančio spaudimo rankomis, „reddit“ paieškos, įvertinimo ir patikslinimo, kad būtų galima rasti tinkamą modelį kiekvienam darbui.
Taigi, nors kalbos modeliai yra prekės, jie tiksliau apibūdinami kaip neaiškios prekės. Daugeliu atvejų dirbtinio intelekto modeliai bus beveik keičiami, o tokia metrika kaip kaina ir delsa nulems, kurį modelį naudoti. Tačiau galimybių ribose atsitiks priešingai: modeliai ir toliau specializuosis, vis labiau skirsis. Pavyzdžiui, „Deepseek-V2.5“ yra stipresnis nei GPT-4o koduojant C#, nepaisant to, kad jis yra tik dalis dydžio ir 50 kartų pigesnis.
Abi šios dinamikos – pakeitimas prekėmis ir specializacija – panaikina tezę, kad vienas modelis geriausiai tinka visais įmanomais naudojimo atvejais. Atvirkščiai, jie nurodo į laipsniškai fragmentuotą AI kraštovaizdį.
Multimodalinis orkestravimas ir maršruto parinkimas
Yra tinkama kalbos modelių rinkos dinamikos analogija: žmogaus smegenys. Mūsų smegenų struktūra išliko nepakitusi 100 000 metų, o smegenys yra daug panašesnės nei nepanašios. Didžiąją mūsų laiko dalį Žemėje dauguma žmonių mokėsi tų pačių dalykų ir turėjo panašių galimybių.
Bet tada kažkas pasikeitė. Išugdėme gebėjimą bendrauti kalba – iš pradžių kalba, paskui raštu. Ryšio protokolai palengvina tinklus, o žmonėms pradėjus kurti tinklus vieni su kitais, mes taip pat pradėjome vis labiau specializuotis. Mes buvome išlaisvinti nuo naštos, kad turime būti generalistai visose srityse, būti savarankiškomis salomis. Paradoksalu, tačiau kolektyviniai specializacijos turtai taip pat lėmė, kad vidutinis šiandieninis žmogus yra daug stipresnis generalistas nei bet kuris mūsų protėvis.
Pakankamai plačioje įvesties erdvėje visata visada linkusi specializuotis. Tai galioja nuo molekulinės chemijos iki biologijos ir žmonių visuomenės. Esant pakankamai įvairovei, paskirstytos sistemos visada bus efektyvesnės skaičiavimo požiūriu nei monolitai. Manome, kad tas pats bus ir su AI. Kuo labiau galime panaudoti kelių modelių pranašumus, užuot pasikliavę tik vienu, tuo labiau tie modeliai galės specializuotis, išplėsdami galimybių ribas.
Vis svarbesnis įvairių modelių privalumų panaudojimo modelis yra maršruto parinkimas – dinamiškas užklausų siuntimas tinkamiausiam modeliui, o taip pat pigesnių, greitesnių modelių panaudojimas, kai tai nepablogina kokybės. Maršruto parinkimas leidžia pasinaudoti visais specializacijos privalumais – didesniu tikslumu, mažesnėmis sąnaudomis ir vėlavimu – neatsisakant apibendrinimo tvirtumo.
Paprastas maršruto parinkimo galios demonstravimas gali būti matomas tuo, kad dauguma geriausių pasaulio modelių patys yra maršrutizatoriai: jie sukurti naudojant Mixture of Expert architektūrą, kuri nukreipia kiekvieną sekančią žetono kartą į kelias dešimtis ekspertų antrinių modelių. Jei tiesa, kad LLM eksponentiškai daugėja neaiškių prekių, maršruto parinkimas turi tapti esmine kiekvieno dirbtinio intelekto krūvos dalimi.
Egzistuoja požiūris, kad LLM pasieks plokščiakalnį, kai pasieks žmogaus intelektą – kad visiškai prisotindami galimybes, susijungsime aplink vieną bendrą modelį taip pat, kaip susijungėme su AWS arba iPhone. Nė viena iš tų platformų (ar jų konkurentų) per pastaruosius porą metų nepadidino savo galimybių 10 kartų, todėl mes taip pat galime jaustis patogiai jų ekosistemose. Tačiau manome, kad dirbtinis intelektas neapsiribos žmogaus lygio intelektu; ji peržengs visas ribas, kurias galime net įsivaizduoti. Tai padarius, ji taps vis labiau susiskaidžiusi ir specializuota, kaip ir bet kuri kita natūrali sistema.
Negalime pervertinti, kiek AI modelio suskaidymas yra labai geras dalykas. Suskaidytos rinkos yra veiksmingos: jos suteikia pirkėjams galios, maksimaliai padidina naujoves ir sumažina išlaidas. Ir tiek, kiek galime panaudoti mažesnių, labiau specializuotų modelių tinklus, o ne siųsti viską per vieno milžiniško modelio vidines dalis, judame link daug saugesnės, labiau interpretuojamos ir lengviau valdomos AI ateities.
Didžiausi išradimai neturi savininkų. Beno Franklino įpėdiniai neturi elektros. Turingo valdai priklauso ne visi kompiuteriai. AI neabejotinai yra vienas didžiausių žmonijos išradimų; manome, kad jos ateitis bus ir turėtų būti kelių modelių.
Zackas Kassas yra buvęs „go-to-market“ vadovas OpenAI.
Tomas Hernando Kofmanas yra vienas iš įkūrėjų ir generalinis direktorius Ne deimantas.
DataDecisionMakers
Sveiki atvykę į VentureBeat bendruomenę!
„DataDecisionMakers“ yra vieta, kur ekspertai, įskaitant techninius žmones, atliekančius duomenų darbą, gali dalytis su duomenimis susijusiomis įžvalgomis ir naujovėmis.
Jei norite sužinoti apie pažangiausias idėjas ir naujausią informaciją, geriausią praktiką ir duomenų bei duomenų technologijų ateitį, prisijunkite prie mūsų „DataDecisionMakers“.
Jūs netgi galite apsvarstyti galimybę parašyti savo straipsnį!
Skaitykite daugiau iš DataDecisionMakers
Source link