{"id":1102,"date":"2025-01-20T22:44:53","date_gmt":"2025-01-20T22:44:53","guid":{"rendered":"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/20\/atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina\/"},"modified":"2025-01-20T22:44:53","modified_gmt":"2025-01-20T22:44:53","slug":"atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina","status":"publish","type":"post","link":"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/20\/atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina\/","title":{"rendered":"Atvirojo kodo DeepSeek-R1 naudoja gryn\u0105 sustiprinimo mokym\u0105si, kad atitikt\u0173 OpenAI o1 \u2013 u\u017e 95 % ma\u017eesn\u0119 kain\u0105"},"content":{"rendered":" \r\n<br><div>\n\t\t\t\t<div id=\"boilerplate_2682874\" class=\"post-boilerplate boilerplate-before\">\n<p><em>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite daugiau<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity is-style-wide\"\/>\n<\/div><p>Kinijos AI startuolis \u201eDeepSeek\u201c, \u017einomas d\u0117l i\u0161\u0161\u016bki\u0173 pirmaujantiems dirbtinio intelekto pardav\u0117jams atvirojo kodo technologijomis, k\u0105 tik numet\u0117 dar vien\u0105 bomb\u0105: nauj\u0105 atviro m\u0105stymo LLM, pavadint\u0105 \u201eDeepSeek-R1\u201c.<\/p>\n\n\n\n<p>Remiantis neseniai pristatytu \u201eDeepSeek V3\u201c ekspert\u0173 mi\u0161inio modeliu, \u201eDeepSeek-R1\u201c atitinka o1, OpenAI pasienio m\u0105stymo LLM, na\u0161um\u0105 atliekant matematikos, kodavimo ir samprotavimo u\u017eduotis. Geriausia dalis? Tai daroma u\u017e daug patrauklesn\u0119 kain\u0105, o tai yra 90\u201395% pigesn\u0117 nei pastaroji.<\/p>\n\n\n\n<p>I\u0161leidimas \u017eymi didel\u012f \u0161uol\u012f \u012f priek\u012f atvirojo kodo arenoje. Tai rodo, kad atviri modeliai toliau ma\u017eina atotr\u016bk\u012f nuo u\u017edar\u0173 komercini\u0173 modeli\u0173 lenktyn\u0117se d\u0117l dirbtinio bendrojo intelekto (AGI). Siekdama parodyti savo darbo meistri\u0161kum\u0105, \u201eDeepSeek\u201c taip pat naudojo R1, kad distiliuot\u0173 \u0161e\u0161is \u201eLlama\u201c ir \u201eQwen\u201c modelius, pakeldamas j\u0173 na\u0161um\u0105 \u012f naujus lygius. Vienu atveju distiliuota Qwen-1.5B versija tam tikruose matematikos etalonuose pranoko daug didesnius modelius GPT-4o ir Claude 3.5 Sonnet.<\/p>\n\n\n\n<p>\u0160ie distiliuoti modeliai kartu su pagrindiniu R1 buvo atvirojo kodo ir yra prieinami Hugging Face pagal MIT licencij\u0105.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Turinys:<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/20\/atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina\/#Ka_%E2%80%9EDeepSeek-R1%E2%80%9C_pateikia_prie_stalo\" >K\u0105 \u201eDeepSeek-R1\u201c pateikia prie stalo?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/20\/atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina\/#Mokymo_vamzdynas\" >Mokymo vamzdynas<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/20\/atvirojo-kodo-deepseek-r1-naudoja-gryna-sustiprinimo-mokymasi-kad-atitiktu-openai-o1-uz-95-mazesne-kaina\/#Daug_pigiau_nei_o1\" >Daug pigiau nei o1<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\" id=\"h-what-does-deepseek-r1-bring-to-the-table\"><span class=\"ez-toc-section\" id=\"Ka_%E2%80%9EDeepSeek-R1%E2%80%9C_pateikia_prie_stalo\"><\/span>K\u0105 \u201eDeepSeek-R1\u201c pateikia prie stalo?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Daugiausia d\u0117mesio skiriama dirbtiniam bendrajam intelektui (AGI), AI lygiui, kuris gali atlikti tokias intelektines u\u017eduotis kaip \u017emon\u0117s. Daugelis komand\u0173 dvigubai suma\u017eina modeli\u0173 m\u0105stymo geb\u0117jimus. OpenAI padar\u0117 pirm\u0105j\u012f reik\u0161ming\u0105 \u017eingsn\u012f \u0161ioje srityje su savo o1 modeliu, kuris naudoja m\u0105stymo grandin\u0119, kad i\u0161spr\u0119st\u0173 problem\u0105. Per RL (stiprinimo mokym\u0105si arba atlyg\u012f pagr\u012fst\u0105 optimizavim\u0105) o1 i\u0161moksta patobulinti savo min\u010di\u0173 grandin\u0119 ir patobulinti naudojamas strategijas \u2013 galiausiai i\u0161moksta atpa\u017einti ir i\u0161taisyti savo klaidas arba i\u0161bandyti naujus metodus, kai dabartiniai neveikia. <\/p>\n\n\n\n<p>Dabar, t\u0119sdama darb\u0105 \u0161ia kryptimi, \u201eDeepSeek\u201c i\u0161leido \u201eDeepSeek-R1\u201c, kuris naudoja RL ir pri\u017ei\u016brimo koregavimo derin\u012f, kad atlikt\u0173 sud\u0117tingas samprotavimo u\u017eduotis ir atitikt\u0173 o1 na\u0161um\u0105. <\/p>\n\n\n\n<p>I\u0161bandytas, DeepSeek-R1 surinko 79,8% AIME 2024 matematikos test\u0173 ir 97,3% MATH-500. Jis taip pat pasiek\u0117 2 029 \u201eCodeforces\u201c \u012fvertinim\u0105 \u2013 geriau nei 96,3% programuotoj\u0173. Prie\u0161ingai, o1-1217 pagal \u0161iuos etalonus surinko atitinkamai 79,2%, 96,4% ir 96,6%. <\/p>\n\n\n\n<p>Jis taip pat parod\u0117 stiprias bendr\u0105sias \u017einias, 90,8% tikslumo MMLU, atsiliekant nuo o1 91,8%. <\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter is-resized\"><figcaption class=\"wp-element-caption\">\u201eDeepSeek-R1\u201c ir \u201eOpenAI o1\u201c ir \u201eo1-mini\u201c na\u0161umas<\/figcaption><\/figure><\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"h-the-training-pipeline\"><span class=\"ez-toc-section\" id=\"Mokymo_vamzdynas\"><\/span>Mokymo vamzdynas<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>\u201eDeepSeek-R1\u201c argumentavimo na\u0161umas \u017eymi didel\u012f Kinijos startuolio laim\u0117jim\u0105 JAV dominuojamoje dirbtinio intelekto erdv\u0117je, ypa\u010d d\u0117l to, kad visas darbas yra atvirojo kodo, \u012fskaitant tai, kaip \u012fmon\u0117 visa tai apmok\u0117. <\/p>\n\n\n\n<p>Ta\u010diau darbas n\u0117ra toks paprastas, kaip atrodo.<\/p>\n\n\n\n<p>Remiantis tyrimu apra\u0161omame dokumente, DeepSeek-R1 buvo sukurta kaip patobulinta DeepSeek-R1-Zero versija &#8211; prover\u017eio modelis, parengtas tik sustiprinant mokym\u0105si. <\/p>\n\n\n\n<figure class=\"wp-block-embed aligncenter is-type-rich is-provider-twitter wp-block-embed-twitter\"><p>\n\n<blockquote class=\"twitter-tweet\" data-width=\"550\" data-dnt=\"true\"><p lang=\"en\" dir=\"ltr\">We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive &#8211; truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.<br><br>DeepSeek-R1 not only open-sources a barrage of models but\u2026 <a href=\"https:\/\/t.co\/M7eZnEmCOY\">pic.twitter.com\/M7eZnEmCOY<\/a><\/p>&mdash; Jim Fan (@DrJimFan) <a href=\"https:\/\/twitter.com\/DrJimFan\/status\/1881353126210687089?ref_src=twsrc%5Etfw\">January 20, 2025<\/a><\/blockquote><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script>\n<\/p><\/figure>\n\n\n\n<p>Bendrov\u0117 pirm\u0105 kart\u0105 naudojo DeepSeek-V3 baz\u0119 kaip pagrindin\u012f model\u012f, pl\u0117todama savo argumentavimo galimybes nenaudodama pri\u017ei\u016brim\u0173 duomen\u0173, i\u0161 esm\u0117s sutelkdama d\u0117mes\u012f tik \u012f savo evoliucij\u0105 per gryn\u0105 RL pagr\u012fst\u0105 bandym\u0173 ir klaid\u0173 proces\u0105. \u0160is geb\u0117jimas, sukurtas i\u0161 esm\u0117s, u\u017etikrina, kad modelis gali i\u0161spr\u0119sti vis sud\u0117tingesnes samprotavimo u\u017eduotis, naudodamas ilgesn\u012f bandymo laiko skai\u010diavim\u0105, kad b\u016bt\u0173 galima i\u0161samiau i\u0161tirti ir patobulinti m\u0105stymo procesus.<\/p>\n\n\n\n<p>\u201eMokymosi metu DeepSeek-R1-Zero nat\u016braliai atsirado su daugybe galing\u0173 ir \u012fdomi\u0173 samprotavim\u0173\u201c, \u2013 pa\u017eymi mokslininkai. \u201ePo t\u016bkstan\u010di\u0173 RL \u017eingsni\u0173 \u201eDeepSeek-R1-Zero\u201c demonstruoja puik\u0173 veiksmingum\u0105 pagal samprotavimo etalonus. Pavyzd\u017eiui, AIME 2024 \u201epass@1\u201c balas padid\u0117ja nuo 15,6% iki 71,0%, o balsavus daugumos balas toliau ger\u0117ja iki 86,7%, tai atitinka OpenAI-o1-0912 na\u0161um\u0105. <\/p>\n\n\n\n<p>Ta\u010diau, nepaisant pager\u0117jusio na\u0161umo, \u012fskaitant elgsen\u0105, pvz., apm\u0105stym\u0105 ir alternatyv\u0173 tyrin\u0117jim\u0105, pradinis modelis parod\u0117 tam tikr\u0173 problem\u0173, \u012fskaitant prast\u0105 skaitomum\u0105 ir kalb\u0173 mai\u0161ym\u0105. Kad tai i\u0161taisyt\u0173, bendrov\u0117 r\u0117m\u0117si R1-Zero atliktu darbu, naudodama keli\u0173 etap\u0173 metod\u0105, derinant\u012f ir pri\u017ei\u016brim\u0105 mokym\u0105si, ir mokym\u0105si sustiprinant, ir taip suk\u016br\u0117 patobulint\u0105 R1 model\u012f.<\/p>\n\n\n\n<p>\u201eKonkre\u010diai, mes pradedame rinkdami t\u016bkstan\u010dius \u0161alto paleidimo duomen\u0173, kad tiksliai suderintume DeepSeek-V3-Base model\u012f\u201c, &#8211; ai\u0161kino mokslininkai. \u201ePo to mes atliekame \u012f samprotavimus orientuot\u0105 RL, pvz., DeepSeek-R1-Zero. Art\u0117jant RL proceso konvergencijai, sukuriame naujus SFT duomenis, atmetant atrank\u0105 RL patikros ta\u0161ke, kartu su pri\u017ei\u016brimais duomenimis i\u0161 DeepSeek-V3 tokiose srityse kaip ra\u0161ymas, faktinis kokyb\u0117s u\u017etikrinimas ir sav\u0119s pa\u017einimas, o tada permokome DeepSeek-V3. &#8211; Bazinis modelis. Tiksliai sureguliavus naujus duomenis, patikros ta\u0161ke atliekamas papildomas RL procesas, atsi\u017evelgiant \u012f vis\u0173 scenarij\u0173 raginimus. Atlik\u0119 \u0161iuos veiksmus, gavome kontrolin\u012f ta\u0161k\u0105, vadinam\u0105 DeepSeek-R1, kurio na\u0161umas pana\u0161us \u012f OpenAI-o1-1217. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-far-more-affordable-than-o1\"><span class=\"ez-toc-section\" id=\"Daug_pigiau_nei_o1\"><\/span>Daug pigiau nei o1<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Be patobulinto na\u0161umo, kuris beveik atitinka OpenAI o1 pagal etalonus, naujasis DeepSeek-R1 taip pat yra labai prieinamas. Konkre\u010diai, ten, kur OpenAI o1 kainuoja 15 USD u\u017e milijon\u0105 \u012fvesties \u017eeton\u0173 ir 60 USD u\u017e milijon\u0105 i\u0161vesties \u017eeton\u0173, \u201eDeepSeek Reasoner\u201c, pagr\u012fsta R1 modeliu, kainuoja 0,55 USD u\u017e milijon\u0105 \u012fvesties ir 2,19 USD u\u017e milijon\u0105 i\u0161vesties \u017eeton\u0173. <\/p>\n\n\n\n<figure class=\"wp-block-embed aligncenter is-type-rich is-provider-twitter wp-block-embed-twitter\"><p>\n\n<blockquote class=\"twitter-tweet\" data-width=\"550\" data-dnt=\"true\"><p lang=\"en\" dir=\"ltr\">Sooo <a href=\"https:\/\/twitter.com\/deepseek_ai?ref_src=twsrc%5Etfw\">@deepseek_ai<\/a>&#39;s reasoner model, which sits somewhere between o1-mini &amp; o1 is about 90-95% cheaper \ud83d\udc40 <a href=\"https:\/\/t.co\/ohnI6dtPRC\">https:\/\/t.co\/ohnI6dtPRC<\/a> <a href=\"https:\/\/t.co\/Qn78yIGUtt\">pic.twitter.com\/Qn78yIGUtt<\/a><\/p>&mdash; Emad (@EMostaque) <a href=\"https:\/\/twitter.com\/EMostaque\/status\/1881310721746804810?ref_src=twsrc%5Etfw\">January 20, 2025<\/a><\/blockquote><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script>\n<\/p><\/figure>\n\n\n\n<p>Modelis gali b\u016bti i\u0161bandytas kaip \u201eDeepThink\u201c DeepSeek pokalbi\u0173 platformoje, kuri yra pana\u0161i \u012f ChatGPT. Suinteresuoti vartotojai gali pasiekti modeli\u0173 svor\u012f ir kod\u0173 saugykl\u0105 naudodami \u201eHugging Face\u201c, tur\u0117dami MIT licencij\u0105, arba tiesiogiai integruoti naudodami API.<\/p>\n<div id=\"boilerplate_2660155\" class=\"post-boilerplate boilerplate-after\"><div class=\"Boilerplate__newsletter-container vb\">\n<div class=\"Boilerplate__newsletter-main\">\n<p><strong>Kasdien \u012f\u017evalgos apie verslo naudojimo atvejus su VB Daily<\/strong><\/p>\n<p class=\"copy\">Jei norite padaryti \u012fsp\u016bd\u012f savo vir\u0161ininkui, \u201eVB Daily\u201c jums pad\u0117s. Suteikiame jums informacij\u0105 apie tai, k\u0105 \u012fmon\u0117s daro su generuojamuoju AI, nuo reguliavimo poky\u010di\u0173 iki praktinio diegimo, kad gal\u0117tum\u0117te pasidalinti \u012f\u017evalgomis apie did\u017eiausi\u0105 IG.<\/p>\n<p class=\"Form__newsletter-legal\">Perskaitykite m\u016bs\u0173 privatumo politik\u0105<\/p>\n<p class=\"Form__success\" id=\"boilerplateNewsletterConfirmation\">\n<p>\t\t\t\t\tA\u010di\u016b, kad u\u017esiprenumeravote. Daugiau VB naujienlai\u0161ki\u0173 rasite \u010dia.\n\t\t\t\t<\/p>\n<p class=\"Form__error\">\u012evyko klaida.<\/p>\n<\/p><\/div>\n<div class=\"image-container\">\n\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/venturebeat.com\/wp-content\/themes\/vb-news\/brand\/img\/vb-daily-phone.png\" alt=\"\"\/>\n\t\t\t\t<\/div>\n<\/p><\/div>\n<\/div>\t\t\t<\/div><script async src=\"\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script>\r\n<br>\r\n<br><a href=\"https:\/\/venturebeat.com\/ai\/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost\/\">Source link <\/a>","protected":false},"excerpt":{"rendered":"<p>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite&hellip;<\/p>\n","protected":false},"author":1,"featured_media":1103,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[167],"tags":[],"class_list":["post-1102","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-technologijos"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/1102","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/comments?post=1102"}],"version-history":[{"count":0,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/1102\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media\/1103"}],"wp:attachment":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media?parent=1102"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/categories?post=1102"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/tags?post=1102"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}