„DeepSeek-V3“, itin didelis atvirojo kodo AI, pralenkia „Llama“ ir „Qwen“ paleidimą


Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau


Kinijos dirbtinio intelekto startuolis DeepSeek, žinomas dėl iššūkių pirmaujantiems dirbtinio intelekto pardavėjams savo naujoviškomis atvirojo kodo technologijomis, šiandien išleido naują itin didelį modelį: DeepSeek-V3.

Naujasis modelis, kurį galima įsigyti per Hugging Face pagal įmonės licencijos sutartį, turi 671B parametrus, tačiau naudoja ekspertų mišinio architektūrą, kad suaktyvintų tik tam tikrus parametrus, kad tiksliai ir efektyviai atliktų nurodytas užduotis. Remiantis „DeepSeek“ bendrais etalonais, pasiūlymas jau viršija topų viršūnes, pralenkdamas pirmaujančius atvirojo kodo modelius, įskaitant „Meta’s Llama 3.1-405B“, ir beveik prilygdamas uždarų Anthropic ir OpenAI modelių našumui.

Išleidimas žymi dar vieną svarbų patobulinimą, panaikinantį atotrūkį tarp uždarojo ir atvirojo kodo AI. Galiausiai „DeepSeek“, pradėjęs veikti kaip Kinijos kiekybinio rizikos draudimo fondo „High-Flyer Capital Management“ atšaka, tikisi, kad šie pokyčiai atvers kelią dirbtiniam bendrajam intelektui (AGI), kur modeliai galės suprasti ar išmokti bet kokią intelektinę užduotį, kurią žmogus gali.

Ką „DeepSeek-V3“ pateikia prie stalo?

Kaip ir jo pirmtakas „DeepSeek-V2“, naujasis itin didelis modelis naudoja tą pačią pagrindinę architektūrą, kuri sukasi aplink daugiagalvį latentinį dėmesį (MLA) ir DeepSeekMoE. Šis metodas užtikrina veiksmingą mokymą ir išvadas – specializuoti ir bendri „ekspertai“ (atskiri, mažesni neuroniniai tinklai didesniame modelyje) suaktyvina 37B parametrus iš 671B kiekvienam prieigos raktui.

Nors pagrindinė architektūra užtikrina tvirtą DeepSeek-V3 našumą, bendrovė taip pat pristatė dvi naujoves, kad dar labiau padidintų kartelę.

Pirmoji yra papildoma be nuostolių apkrovos balansavimo strategija. Tai dinamiškai stebi ir koreguoja ekspertų apkrovą, kad juos panaudotų subalansuotai, nepakenkiant bendram modelio veikimui. Antrasis yra kelių žetonų numatymas (MTP), kuris leidžia modeliui vienu metu numatyti kelis ateities žetonus. Ši naujovė ne tik padidina mokymo efektyvumą, bet ir leidžia modeliui veikti tris kartus greičiau, generuojant 60 žetonų per sekundę.

„Per išankstinį mokymą apmokėme DeepSeek-V3 naudodami 14.8T aukštos kokybės ir įvairių žetonų… Tada atlikome dviejų etapų kontekstinio ilgio pratęsimą DeepSeek-V3“, – rašė bendrovė techniniame dokumente, kuriame išsamiai aprašomas naujasis modelis. „Pirmajame etape maksimalus konteksto ilgis pailginamas iki 32K, o antrajame – dar iki 128K. Po to surengėme mokymus, įskaitant prižiūrimą tobulą derinimą (SFT) ir sustiprintą mokymąsi (RL) pagal pagrindinį DeepSeek-V3 modelį, kad suderintume jį su žmogaus pageidavimais ir dar labiau atskleistume jo potencialą. Po treniruotės mes distiliuojame argumentavimo galimybes iš DeepSeekR1 modelių serijos, o tuo tarpu atidžiai palaikome modelio tikslumo ir kartos ilgio pusiausvyrą.

Pažymėtina, kad mokymo etape „DeepSeek“ naudojo daugybę aparatinės įrangos ir algoritmų optimizavimo, įskaitant FP8 mišrią tikslumo mokymo sistemą ir dujotiekio lygiagretumo algoritmą „DualPipe“, kad sumažintų proceso išlaidas.

Apskritai, jis teigia, kad visus „DeepSeek-V3“ mokymus baigė per maždaug 2788 000 H800 GPU valandų arba apie 5,57 mln. USD, darant prielaidą, kad nuomos kaina yra 2 USD už GPU valandą. Tai yra daug mažesnė už šimtus milijonų dolerių, paprastai išleidžiamų didelių kalbų modelių paruošimui.

Pavyzdžiui, manoma, kad Llama-3.1 buvo apmokytas investavus daugiau nei 500 mln.

Stipriausias šiuo metu prieinamas atvirojo kodo modelis

Nepaisant ekonomiško mokymo, DeepSeek-V3 tapo stipriausiu atvirojo kodo modeliu rinkoje.

Bendrovė atliko kelis etalonus, kad palygintų AI našumą ir pastebėjo, kad jis įtikinamai lenkia pirmaujančius atvirus modelius, įskaitant Llama-3.1-405B ir Qwen 2.5-72B. Jis netgi lenkia uždarojo kodo GPT-4o pagal daugumą etalonų, išskyrus angliškai orientuotus „SimpleQA“ ir „FRAMES“, kur OpenAI modelis buvo į priekį su atitinkamais 38,2 ir 80,5 balais (palyginti su 24,9 ir 73,3).

Pažymėtina, kad „DeepSeek-V3“ našumas ypač išsiskyrė kinų ir matematikos etalonuose, gaudamas geresnius balus nei visi kolegos. Math-500 teste jis surinko 90,2 balo, o Qwen 80 balų buvo kitas geriausias.

Vienintelis modelis, kuriam pavyko mesti iššūkį DeepSeek-V3, buvo Anthropic’s Claude 3.5 Sonnet, pranokęs jį aukštesniais balais MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified ir Aider-Edit.

Darbas rodo, kad atvirasis šaltinis priartėja prie uždarojo kodo modelių, žadėdamas beveik lygiavertį našumą atliekant įvairias užduotis. Tokių sistemų kūrimas yra labai naudingas pramonei, nes tai gali panaikinti galimybę, kad žaidimą valdys vienas didelis AI žaidėjas. Ji taip pat suteikia įmonėms daug galimybių pasirinkti ir dirbti surengiant savo krūvas.

Šiuo metu DeepSeek-V3 kodas yra prieinamas per GitHub pagal MIT licenciją, o modelis pateikiamas pagal bendrovės modelio licenciją. Įmonės taip pat gali išbandyti naująjį modelį per DeepSeek Chat, panašią į ChatGPT platformą, ir pasiekti API komerciniam naudojimui. „DeepSeek“ teikia API adresu ta pati kaina kaip DeepSeek-V2 iki vasario 8 d. Po to jis apmokestins 0,27 USD už milijoną įvesties žetonų (0,07 USD už milijoną žetonų su talpyklos įvykiais) ir 1,10 USD už milijoną išvesties žetonų.



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Klaipedos miesto naujienos - Miesto naujienos - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Teniso treniruotės - Pranešimai spaudai - Kauno naujienos - Regionų naujienos - Palangos naujienos