Iš mylių atstumu per dykumą Didžioji piramidė atrodo kaip tobula, lygi geometrija – aptakus trikampis, nukreiptas į žvaigždes. Tačiau atsistokite prie pagrindo ir glotnumo iliuzija išnyks. Matote masyvius, dantytus kalkakmenio luitus. Tai nėra nuolydis; tai laiptai.
Prisiminkite tai, kai kitą kartą išgirsite futuristus kalbant apie eksponentinį augimą.
„Intel“ įkūrėjas Gordonas Moore’as (Moore’o dėsnis) garsiai cituojamas 1965 m., sakydamas, kad tranzistorių skaičius mikroschemoje kasmet padvigubės. Kitas „Intel“ vadovas Davidas Hausas vėliau peržiūrėjo šį teiginį, kad „apskaičiuotų galios padvigubėjimą kas 18 mėnesių." Kurį laiką „Intel“ procesoriai buvo šio įstatymo antroji dalis. Tai yra, kol procesoriaus našumo augimas išsilygino kaip kalkakmenio blokas.
Tačiau jei sumažinsite vaizdą, kitas klinčių blokas jau buvo – skaičiavimo augimas tiesiog perėjo nuo procesorių į GPU pasaulį. Jensenas Huangas, „Nvidia“ generalinis direktorius, žaidė ilgą žaidimą ir tapo stipriu nugalėtoju – iš pradžių kūrė savo atspirties tašką su žaidimais, vėliau – su kompiuterių vizija, o pastaruoju metu – su generuojančiu dirbtiniu intelektu.
Sklandaus augimo iliuzija
Technologijų augimas kupinas sprintų ir plokščiakalnių, o genų AI nėra apsaugotas. Srovės bangą lemia transformatoriaus architektūra. Cituojant „Anthropic“ prezidentą ir įkūrėją Dario Amodei: „Eksponentiškumas tęsiasi tol, kol nevyksta. Ir kiekvienais metais mes kartojome: „Na, negali būti, kad viskas tęsis eksponentiškai“ – ir kasmet taip.
Tačiau lygiai taip pat, kai centrinis procesorius nusileido ir GPU ėmėsi lyderio vaidmens, matome ženklų, kad LLM augimas vėl keičia paradigmas. Pavyzdžiui, 2024 m. pabaigoje „DeepSeek“ nustebino pasaulį apmokydama pasaulinio lygio modelį su neįtikėtinai mažu biudžetu, iš dalies naudodama Ūkio techniką.
Ar prisimeni, kur neseniai matėte paminėtą šią techniką? „Nvidia“ „Rubin“ pranešimas spaudai: Ši technologija apima „…naujausios kartos Nvidia NVLink sujungimo technologiją… siekiant pagreitinti agentinį AI, pažangų samprotavimą ir didelio masto MoE modelio išvadas iki 10 kartų mažesne kaina už žetoną“.
Jensenas žino, kad šis geidžiamas eksponentinis skaičiavimo augimas nebėra pasiekiamas naudojant gryną jėgą. Kartais norint pastatyti kitą žingsnį, reikia visiškai pakeisti architektūrą.
Vėlavimo krizė: kur Groq tinka
Ši ilga įžanga atveda mus prie Groq.
2025 m. didžiausią AI samprotavimo galimybių naudą lėmė „išvados laiko skaičiavimas“ arba, kalbant liaudiškai, „leidimas modeliui mąstyti ilgesnį laiką“. Bet laikas yra pinigai. Vartotojai ir įmonės nemėgsta laukti.
„Groq“ čia pasirodo su savo žaibo greičio išvada. Jei sujungsite tokių modelių kaip „DeepSeek“ architektūrinį efektyvumą ir didžiulį „Groq“ pralaidumą, po ranka pasieksite ribinę informaciją. Vykdydami išvadas greičiau, galite „nepagrįsti“ konkurencingus modelius, pasiūlydami klientams „išmanesnę“ sistemą be baudos už vėlavimą.
Nuo universalaus lusto iki išvadų optimizavimo
Pastarąjį dešimtmetį GPU buvo universalus plaktukas kiekvienai AI nagai. Modeliui apmokyti naudojate H100; modeliui paleisti naudojate H100s (arba sumažintas versijas). Tačiau modeliams pereinant link "2 sistema" mąstymas – kai AI motyvuoja, pasitaiso ir kartoja prieš atsakydamas – keičiasi skaičiavimo krūvis.
Treniruotėms reikia didžiulės lygiagrečios brutalios jėgos. Išvadoms, ypač samprotavimo modeliams, reikalingas greitesnis nuoseklus apdorojimas. Jis turi akimirksniu generuoti žetonus, kad palengvintų sudėtingas minčių grandines, vartotojui nelaukiant atsakymo minučių. Groq LPU (Kalbos apdorojimo bloko) architektūra pašalina atminties pralaidumo kliūtis, varginančias GPU atliekant mažų partijų išvadas, todėl išvados daromos žaibiškai.
Variklis kitai augimo bangai
„C-Suite“ atveju ši galima konvergencija išsprendžia "mąstymo laikas" latentinė krizė. Apsvarstykite AI agentų lūkesčius: norime, kad jie savarankiškai užsakytų skrydžius, koduotų visas programas ir tyrinėtų teisinį precedentą. Norint tai padaryti patikimai, modeliui gali tekti sugeneruoti 10 000 vidinių "minčių žetonai" patikrinti savo darbą prieš išvedant vieną žodį vartotojui.
-
,Standartiniame GPU: 10 000 minties žetonų gali užtrukti nuo 20 iki 40 sekundžių. Vartotojas nusibosta ir išeina.
-
,Apie Groq: Ta pati minčių grandinė įvyksta greičiau nei per 2 sekundes.
Jei „Nvidia“ integruos „Groq“ technologiją, jie išspręs problemą "laukia, kol robotas pagalvos" problema. Jie išsaugo AI magiją. Lygiai taip pat, kaip jie perėjo nuo pikselių pateikimo (žaidimų) prie atvaizdavimo intelekto (gen AI), dabar jie pereis prie atvaizdavimo samprotavimus realiu laiku.
Be to, tai sukuria didžiulį programinės įrangos griovį. Didžiausia Groq kliūtis visada buvo programinės įrangos paketas; Didžiausias „Nvidia“ turtas yra CUDA. Jei „Nvidia“ apgaubia savo ekosistemą aplink „Groq“ aparatūrą, jie iškasa tokį platų griovį, kad konkurentai negalėtų jo kirsti. Jie pasiūlytų universalią platformą: geriausią aplinką treniruotėms ir efektyviausią aplinką bėgimui (Groq/LPU).
Apsvarstykite, kas atsitiks, kai tą neapdorotą išvadų galią sujungsite su naujos kartos atvirojo kodo modeliu (pvz., gandų sklindančiu „DeepSeek 4“): gausite pasiūlymą, kuris konkuruotų su šiuolaikiniais modeliais pagal kainą, našumą ir greitį. Tai atveria „Nvidia“ galimybes – nuo tiesioginio įsitraukimo į išvadų verslą su savo debesies pasiūlymu ir toliau aprūpinant vis didėjantį eksponentiškai augančių klientų skaičių.
Kitas žingsnis piramidėje
Grįžtant prie mūsų pradžios metaforos: The "eksponentinis" AI augimas nėra sklandi neapdorotų FLOP linija; tai daužomi laiptai.
-
,1 blokas: Negalėjome pakankamai greitai apskaičiuoti. Sprendimas: GPU.
-
,2 blokas: Negalėjome pakankamai giliai treniruotis. Sprendimas: Transformatoriaus architektūra.
-
,3 blokas: Mes negalime "galvoti" pakankamai greitai. Sprendimas: Groq LPU.
Jensenas Huangas niekada nebijojo kanibalizuoti savo produktų linijas, kad galėtų turėti ateitį. Patvirtinusi „Groq“, „Nvidia“ ne tik pirks greitesnį lustą; jie atneštų naujos kartos intelektą masėms.
Andrew Filevas, „Zencoder“ įkūrėjas ir generalinis direktorius