Atvirojo kodo DeepSeek-R1 naudoja gryną sustiprinimo mokymąsi, kad atitiktų OpenAI o1

Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau

Kinijos AI startuolis „DeepSeek“, žinomas dėl iššūkių pirmaujantiems dirbtinio intelekto pardavėjams atvirojo kodo technologijomis, ką tik numetė dar vieną bombą: naują atviro mąstymo LLM, pavadintą „DeepSeek-R1“.

Remiantis neseniai pristatytu „DeepSeek V3“ ekspertų mišinio modeliu, „DeepSeek-R1“ atitinka o1, OpenAI pasienio mąstymo LLM, našumą atliekant matematikos, kodavimo ir samprotavimo užduotis. Geriausia dalis? Tai daroma už daug patrauklesnę kainą, o tai yra 90–95% pigesnė nei pastaroji.

Išleidimas žymi didelį šuolį į priekį atvirojo kodo arenoje. Tai rodo, kad atviri modeliai toliau mažina atotrūkį nuo uždarų komercinių modelių lenktynėse dėl dirbtinio bendrojo intelekto (AGI). Siekdama parodyti savo darbo meistriškumą, „DeepSeek“ taip pat naudojo R1, kad distiliuotų šešis „Llama“ ir „Qwen“ modelius, pakeldamas jų našumą į naujus lygius. Vienu atveju distiliuota Qwen-1.5B versija tam tikruose matematikos etalonuose pranoko daug didesnius modelius GPT-4o ir Claude 3.5 Sonnet.

Šie distiliuoti modeliai kartu su pagrindiniu R1 buvo atvirojo kodo ir yra prieinami Hugging Face pagal MIT licenciją.

Turinys:

Ką „DeepSeek-R1“ pateikia prie stalo?

Daugiausia dėmesio skiriama dirbtiniam bendrajam intelektui (AGI), AI lygiui, kuris gali atlikti tokias intelektines užduotis kaip žmonės. Daugelis komandų dvigubai sumažina modelių mąstymo gebėjimus. OpenAI padarė pirmąjį reikšmingą žingsnį šioje srityje su savo o1 modeliu, kuris naudoja mąstymo grandinę, kad išspręstų problemą. Per RL (stiprinimo mokymąsi arba atlygį pagrįstą optimizavimą) o1 išmoksta patobulinti savo minčių grandinę ir patobulinti naudojamas strategijas – galiausiai išmoksta atpažinti ir ištaisyti savo klaidas arba išbandyti naujus metodus, kai dabartiniai neveikia.

Dabar, tęsdama darbą šia kryptimi, „DeepSeek“ išleido „DeepSeek-R1“, kuris naudoja RL ir prižiūrimo koregavimo derinį, kad atliktų sudėtingas samprotavimo užduotis ir atitiktų o1 našumą.

Išbandytas, DeepSeek-R1 surinko 79,8% AIME 2024 matematikos testų ir 97,3% MATH-500. Jis taip pat pasiekė 2 029 „Codeforces“ įvertinimą – geriau nei 96,3% programuotojų. Priešingai, o1-1217 pagal šiuos etalonus surinko atitinkamai 79,2%, 96,4% ir 96,6%.

Jis taip pat parodė stiprias bendrąsias žinias, 90,8% tikslumo MMLU, atsiliekant nuo o1 91,8%.

„DeepSeek-R1“ ir „OpenAI o1“ ir „o1-mini“ našumas

Mokymo vamzdynas

„DeepSeek-R1“ argumentavimo našumas žymi didelį Kinijos startuolio laimėjimą JAV dominuojamoje dirbtinio intelekto erdvėje, ypač dėl to, kad visas darbas yra atvirojo kodo, įskaitant tai, kaip įmonė visa tai apmokė.

Tačiau darbas nėra toks paprastas, kaip atrodo.

Remiantis tyrimu aprašomame dokumente, DeepSeek-R1 buvo sukurta kaip patobulinta DeepSeek-R1-Zero versija – proveržio modelis, parengtas tik sustiprinant mokymąsi.

We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive – truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.

DeepSeek-R1 not only open-sources a barrage of models but… pic.twitter.com/M7eZnEmCOY
— Jim Fan (@DrJimFan) January 20, 2025

Bendrovė pirmą kartą naudojo DeepSeek-V3 bazę kaip pagrindinį modelį, plėtodama savo argumentavimo galimybes nenaudodama prižiūrimų duomenų, iš esmės sutelkdama dėmesį tik į savo evoliuciją per gryną RL pagrįstą bandymų ir klaidų procesą. Šis gebėjimas, sukurtas iš esmės, užtikrina, kad modelis gali išspręsti vis sudėtingesnes samprotavimo užduotis, naudodamas ilgesnį bandymo laiko skaičiavimą, kad būtų galima išsamiau ištirti ir patobulinti mąstymo procesus.

„Mokymosi metu DeepSeek-R1-Zero natūraliai atsirado su daugybe galingų ir įdomių samprotavimų“, – pažymi mokslininkai. „Po tūkstančių RL žingsnių „DeepSeek-R1-Zero“ demonstruoja puikų veiksmingumą pagal samprotavimo etalonus. Pavyzdžiui, AIME 2024 „pass@1“ balas padidėja nuo 15,6% iki 71,0%, o balsavus daugumos balas toliau gerėja iki 86,7%, tai atitinka OpenAI-o1-0912 našumą.

Tačiau, nepaisant pagerėjusio našumo, įskaitant elgseną, pvz., apmąstymą ir alternatyvų tyrinėjimą, pradinis modelis parodė tam tikrų problemų, įskaitant prastą skaitomumą ir kalbų maišymą. Kad tai ištaisytų, bendrovė rėmėsi R1-Zero atliktu darbu, naudodama kelių etapų metodą, derinantį ir prižiūrimą mokymąsi, ir mokymąsi sustiprinant, ir taip sukūrė patobulintą R1 modelį.

„Konkrečiai, mes pradedame rinkdami tūkstančius šalto paleidimo duomenų, kad tiksliai suderintume DeepSeek-V3-Base modelį“, – aiškino mokslininkai. „Po to mes atliekame į samprotavimus orientuotą RL, pvz., DeepSeek-R1-Zero. Artėjant RL proceso konvergencijai, sukuriame naujus SFT duomenis, atmetant atranką RL patikros taške, kartu su prižiūrimais duomenimis iš DeepSeek-V3 tokiose srityse kaip rašymas, faktinis kokybės užtikrinimas ir savęs pažinimas, o tada permokome DeepSeek-V3. – Bazinis modelis. Tiksliai sureguliavus naujus duomenis, patikros taške atliekamas papildomas RL procesas, atsižvelgiant į visų scenarijų raginimus. Atlikę šiuos veiksmus, gavome kontrolinį tašką, vadinamą DeepSeek-R1, kurio našumas panašus į OpenAI-o1-1217.

Daug pigiau nei o1

Be patobulinto našumo, kuris beveik atitinka OpenAI o1 pagal etalonus, naujasis DeepSeek-R1 taip pat yra labai prieinamas. Konkrečiai, ten, kur OpenAI o1 kainuoja 15 USD už milijoną įvesties žetonų ir 60 USD už milijoną išvesties žetonų, „DeepSeek Reasoner“, pagrįsta R1 modeliu, kainuoja 0,55 USD už milijoną įvesties ir 2,19 USD už milijoną išvesties žetonų.

Sooo @deepseek_ai's reasoner model, which sits somewhere between o1-mini & o1 is about 90-95% cheaper 👀 https://t.co/ohnI6dtPRC pic.twitter.com/Qn78yIGUtt
— Emad (@EMostaque) January 20, 2025

Modelis gali būti išbandytas kaip „DeepThink“ DeepSeek pokalbių platformoje, kuri yra panaši į ChatGPT. Suinteresuoti vartotojai gali pasiekti modelių svorį ir kodų saugyklą naudodami „Hugging Face“, turėdami MIT licenciją, arba tiesiogiai integruoti naudodami API.

Kasdien įžvalgos apie verslo naudojimo atvejus su VB Daily

Jei norite padaryti įspūdį savo viršininkui, „VB Daily“ jums padės. Suteikiame jums informaciją apie tai, ką įmonės daro su generuojamuoju AI, nuo reguliavimo pokyčių iki praktinio diegimo, kad galėtumėte pasidalinti įžvalgomis apie didžiausią IG.

Perskaitykite mūsų privatumo politiką

Ačiū, kad užsiprenumeravote. Daugiau VB naujienlaiškių rasite čia.

Įvyko klaida.