{"id":929,"date":"2025-01-07T22:21:34","date_gmt":"2025-01-07T22:21:34","guid":{"rendered":"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/07\/meta-siulo-naujus-keiciamo-dydzio-atminties-sluoksnius-kurie-pagerina-zinias-mazina-haliucinacijas\/"},"modified":"2025-01-07T22:21:34","modified_gmt":"2025-01-07T22:21:34","slug":"meta-siulo-naujus-keiciamo-dydzio-atminties-sluoksnius-kurie-pagerina-zinias-mazina-haliucinacijas","status":"publish","type":"post","link":"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/07\/meta-siulo-naujus-keiciamo-dydzio-atminties-sluoksnius-kurie-pagerina-zinias-mazina-haliucinacijas\/","title":{"rendered":"Meta si\u016blo naujus kei\u010diamo dyd\u017eio atminties sluoksnius, kurie pagerina \u017einias, ma\u017eina haliucinacijas"},"content":{"rendered":" \r\n<br><div>\n\t\t\t\t<div id=\"boilerplate_2682874\" class=\"post-boilerplate boilerplate-before\">\n<p class=\"wp-block-paragraph\"><em>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite daugiau<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity is-style-wide\"\/>\n<\/div><p>Kadangi \u012fmon\u0117s ir toliau taiko dideli\u0173 kalb\u0173 modelius (LLM) \u012fvairiose programose, vienas i\u0161 pagrindini\u0173 i\u0161\u0161\u016bki\u0173, su kuriais jos susiduria, yra gerinti faktines \u017einias apie modelius ir suma\u017einti haliucinacijas. Naujame dokumente \u201eMeta AI\u201c mokslininkai si\u016blo \u201ekei\u010diamo dyd\u017eio atminties sluoksnius\u201c, kurie gal\u0117t\u0173 b\u016bti vienas i\u0161 keli\u0173 galim\u0173 \u0161ios problemos sprendim\u0173.<\/p>\n\n\n\n<p>Kei\u010diami atminties sluoksniai prideda daugiau parametr\u0173 prie LLM, kad padidint\u0173 j\u0173 mokymosi paj\u0117gumus nereikalaujant papildom\u0173 skai\u010diavimo i\u0161tekli\u0173. Architekt\u016bra naudinga programoms, kuriose galite sutaupyti papildomos atminties faktin\u0117ms \u017einioms, bet taip pat norite, kad i\u0161vados greitis b\u016bt\u0173 ry\u0161kesnis.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_83 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Turinys:<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/07\/meta-siulo-naujus-keiciamo-dydzio-atminties-sluoksnius-kurie-pagerina-zinias-mazina-haliucinacijas\/#Tankus_ir_atminties_sluoksniai\" >Tank\u016bs ir atminties sluoksniai<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/01\/07\/meta-siulo-naujus-keiciamo-dydzio-atminties-sluoksnius-kurie-pagerina-zinias-mazina-haliucinacijas\/#Atminties_sluoksniu_atnaujinimas\" >Atminties sluoksni\u0173 atnaujinimas<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\" id=\"h-dense-and-memory-layers\"><span class=\"ez-toc-section\" id=\"Tankus_ir_atminties_sluoksniai\"><\/span>Tank\u016bs ir atminties sluoksniai<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Tradiciniai kalb\u0173 modeliai naudoja \u201etankius sluoksnius\u201c, kad savo parametruose u\u017ekoduot\u0173 did\u017eiulius kiekius informacijos. Tankiuose sluoksniuose visi parametrai naudojami visu paj\u0117gumu ir da\u017eniausiai aktyvuojami tuo pa\u010diu metu atliekant i\u0161vad\u0105. Tank\u016bs sluoksniai gali i\u0161mokti sud\u0117ting\u0173 funkcij\u0173, o j\u0173 didinimas reikalauja papildom\u0173 skai\u010diavimo ir energijos i\u0161tekli\u0173. <\/p>\n\n\n\n<p>Prie\u0161ingai, paprast\u0173 faktini\u0173 \u017eini\u0173 atveju daug paprastesni sluoksniai su asociatyviomis atminties architekt\u016bromis b\u016bt\u0173 veiksmingesni ir geriau interpretuojami. Taip daro atminties sluoksniai. Jie naudoja paprastus negausius aktyvavimus ir rakto vert\u0117s paie\u0161kos mechanizmus, kad u\u017ekoduot\u0173 ir gaut\u0173 \u017einias. Reti sluoksniai u\u017eima daugiau atminties nei tank\u016bs sluoksniai, bet vienu metu naudoja tik nedidel\u0119 parametr\u0173 dal\u012f, tod\u0117l jie yra daug efektyvesni.<\/p>\n\n\n\n<p>Atminties sluoksniai egzistavo kelet\u0105 met\u0173, ta\u010diau retai naudojami \u0161iuolaikin\u0117se giluminio mokymosi architekt\u016brose. Jie n\u0117ra optimizuoti dabartiniams aparat\u016bros greitintuvams. <\/p>\n\n\n\n<p>Dabartin\u0117s pasienio LLM paprastai naudoja tam tikr\u0105 \u201eekspert\u0173 mi\u0161inio\u201c (MoE) architekt\u016br\u0105, kuri naudoja mechanizm\u0105, neai\u0161kiai pana\u0161\u0173 \u012f atminties sluoksnius. AM modelius sudaro daug ma\u017eesni\u0173 ekspert\u0173 komponent\u0173, kurie specializuojasi konkre\u010diose u\u017eduotyse. I\u0161vados metu mar\u0161ruto parinkimo mechanizmas nustato, kuris ekspertas suaktyvinamas pagal \u012fvesties sek\u0105. PEER, architekt\u016bra, kuri\u0105 neseniai suk\u016br\u0117 Google DeepMind, i\u0161ple\u010dia MoE milijonams ekspert\u0173, suteikdama tikslesn\u0119 parametr\u0173, kurie suaktyvinami atliekant i\u0161vadas, kontrol\u0119.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-upgrading-memory-layers\"><span class=\"ez-toc-section\" id=\"Atminties_sluoksniu_atnaujinimas\"><\/span>Atminties sluoksni\u0173 atnaujinimas<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Atminties sluoksniai yra lengvi skai\u010diuojant, bet daug atminties, o tai kelia specifini\u0173 i\u0161\u0161\u016bki\u0173 dabartin\u0117ms aparatin\u0117s ir programin\u0117s \u012frangos sistemoms. Savo darbe \u201eMeta\u201c mokslininkai si\u016blo kelet\u0105 modifikacij\u0173, kurios i\u0161spr\u0119st\u0173 \u0161iuos i\u0161\u0161\u016bkius ir sudaryt\u0173 s\u0105lygas jas panaudoti pla\u010diu mastu.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><figcaption class=\"wp-element-caption\"><em>Atminties sluoksniai gali saugoti \u017einias lygiagre\u010diai keliuose GPU nesul\u0117tinant modelio (\u0161altinis: arXiv)<\/em><\/figcaption><\/figure>\n\n\n\n<p>Pirma, tyr\u0117jai sukonfig\u016bravo atminties sluoksnius lygiagre\u010diai, paskirstydami juos keliuose GPU, kad b\u016bt\u0173 saugomi milijonai rakt\u0173 ir ver\u010di\u0173 por\u0173, nekei\u010diant kit\u0173 modelio sluoksni\u0173. Jie taip pat \u012fdieg\u0117 special\u0173 CUDA branduol\u012f, skirt\u0105 didel\u0117s atminties pralaidumo operacijoms valdyti. Be to, jie suk\u016br\u0117 parametr\u0173 pasidalijimo mechanizm\u0105, kuris palaiko vien\u0105 atminties parametr\u0173 rinkin\u012f keliuose modelio atminties sluoksniuose. Tai rei\u0161kia, kad per\u017evalgoms naudojami raktai ir reik\u0161m\u0117s yra bendrinami sluoksniuose.<\/p>\n\n\n\n<p>\u0160ios modifikacijos leid\u017eia \u012fdiegti atminties sluoksnius LLM nesul\u0117tinant modelio.<\/p>\n\n\n\n<p>\u201eAtminties sluoksniai su retais aktyvinimais puikiai papildo tankius tinklus, padidindami \u017eini\u0173 \u012fgijimo galimybes ir tuo pat metu lengvai skai\u010diuodami\u201c, \u2013 ra\u0161o mokslininkai. &#8222;Jos gali b\u016bti efektyviai kei\u010diamos ir suteikia praktikams patraukli\u0105 nauj\u0105 krypt\u012f, kaip pakeisti atmint\u012f su skai\u010diavimu.&#8221;<\/p>\n\n\n\n\n\n\n\n<p>Nor\u0117dami i\u0161bandyti atminties sluoksnius, mokslininkai modifikavo Llama modelius, vien\u0105 ar daugiau tanki\u0173 sluoksni\u0173 pakeisdami bendros atminties sluoksniu. Jie palygino atminties patobulintus modelius su tankiais LLM, taip pat MoE ir PEER modeliais atlikdami kelet\u0105 u\u017eduo\u010di\u0173, \u012fskaitant faktinius atsakymus \u012f klausimus, mokslines ir sveiko proto pasaulio \u017einias ir kodavim\u0105.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1160\" height=\"980\" src=\"https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?w=710\" alt=\"Atminties modelis prie\u0161 tankius sluoksnius\" class=\"wp-image-2990426\" srcset=\"https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png 1160w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=300,253 300w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=768,649 768w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=710,600 710w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=400,338 400w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=750,634 750w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=578,488 578w, https:\/\/venturebeat.com\/wp-content\/uploads\/2025\/01\/Memory-model-vs-dense-layers.png?resize=930,786 930w\" sizes=\"auto, (max-width: 1160px) 100vw, 1160px\"\/><figcaption class=\"wp-element-caption\"><em>1.3B atminties modelis (i\u0161tisin\u0117 linija), parengtas naudojant 1 trilijon\u0105 \u017eeton\u0173, priart\u0117ja prie 7B modelio (punktyrin\u0117 linija) na\u0161umo atliekant faktines atsakymo \u012f klausimus u\u017eduotis, nes jam suteikiama daugiau atminties parametr\u0173 (\u0161altinis: arxiv)<\/em><\/figcaption><\/figure>\n\n\n\n<p>J\u0173 i\u0161vados rodo, kad atminties modeliai \u017eymiai pager\u0117ja, palyginti su tankiomis bazin\u0117mis linijomis, ir konkuruoja su modeliais, kurie naudoja 2\u20134 \u200b\u200bkartus daugiau skai\u010diavimo. Jie taip pat atitinka MoE modeli\u0173, turin\u010di\u0173 t\u0105 pat\u012f skai\u010diavimo biud\u017eet\u0105 ir parametr\u0173 skai\u010di\u0173, na\u0161um\u0105. Modelio na\u0161umas ypa\u010d pastebimas atliekant u\u017eduotis, reikalaujan\u010dias faktini\u0173 \u017eini\u0173. Pavyzd\u017eiui, atsakant \u012f klausimus, atminties modelis su 1,3 milijardo parametr\u0173 priart\u0117ja prie Llama-2-7B, kuris buvo i\u0161mokytas naudoti dvigubai daugiau \u017eeton\u0173 ir 10 kart\u0173 daugiau skai\u010diavimo, na\u0161um\u0105. <\/p>\n\n\n\n<p>Be to, tyr\u0117jai nustat\u0117, kad atminties modeli\u0173 privalumai ir toliau atitinka modelio dyd\u012f, nes jie padidino savo eksperimentus nuo 134 milijon\u0173 iki 8 milijard\u0173 parametr\u0173.<\/p>\n\n\n\n<p>\u201eAtsi\u017evelgdami \u012f \u0161ias i\u0161vadas, mes primygtinai pasisakome u\u017e tai, kad atminties sluoksniai tur\u0117t\u0173 b\u016bti integruoti \u012f visas naujos kartos AI architekt\u016bras\u201c, \u2013 ra\u0161o mokslininkai ir priduria, kad dar yra daug kur tobul\u0117ti. \u201eVis\u0173 pirma, mes tikim\u0117s, kad bus sukurti nauji mokymosi metodai, kurie dar labiau padidint\u0173 \u0161i\u0173 sluoksni\u0173 veiksmingum\u0105, leisdami ma\u017eiau pamir\u0161ti, ma\u017eiau haliucinacij\u0173 ir nuolat mokytis.<\/p>\n<div id=\"boilerplate_2660155\" class=\"post-boilerplate boilerplate-after\"><div class=\"Boilerplate__newsletter-container vb\">\n<div class=\"Boilerplate__newsletter-main\">\n<p><strong>Kasdien \u012f\u017evalgos apie verslo naudojimo atvejus su VB Daily<\/strong><\/p>\n<p class=\"copy\">Jei norite padaryti \u012fsp\u016bd\u012f savo vir\u0161ininkui, \u201eVB Daily\u201c jums pad\u0117s. Mes suteikiame jums informacijos apie tai, k\u0105 \u012fmon\u0117s daro su generuojamuoju AI, nuo reguliavimo poky\u010di\u0173 iki praktinio diegimo, kad gal\u0117tum\u0117te pasidalinti \u012f\u017evalgomis apie did\u017eiausi\u0105 IG.<\/p>\n<p class=\"Form__newsletter-legal\">Perskaitykite m\u016bs\u0173 privatumo politik\u0105<\/p>\n<p class=\"Form__success\" id=\"boilerplateNewsletterConfirmation\">\n<p>\t\t\t\t\tA\u010di\u016b, kad u\u017esiprenumeravote. Daugiau VB naujienlai\u0161ki\u0173 rasite \u010dia.\n\t\t\t\t<\/p>\n<p class=\"Form__error\">\u012evyko klaida.<\/p>\n<\/p><\/div>\n<div class=\"image-container\">\n\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/venturebeat.com\/wp-content\/themes\/vb-news\/brand\/img\/vb-daily-phone.png\" alt=\"\"\/>\n\t\t\t\t<\/div>\n<\/p><\/div>\n<\/div>\t\t\t<\/div>\r\n<br>\r\n<br><a href=\"https:\/\/venturebeat.com\/ai\/meta-proposes-new-scalable-memory-layers-that-improve-knowledge-reduce-hallucinations\/\">Source link <\/a>","protected":false},"excerpt":{"rendered":"<p>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite&hellip;<\/p>\n","protected":false},"author":1,"featured_media":930,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[167],"tags":[],"class_list":["post-929","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-technologijos"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/929","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/comments?post=929"}],"version-history":[{"count":0,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/929\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media\/930"}],"wp:attachment":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media?parent=929"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/categories?post=929"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/tags?post=929"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}