{"id":162,"date":"2024-11-14T11:35:11","date_gmt":"2024-11-14T11:35:11","guid":{"rendered":"https:\/\/naujienaplius.lt\/index.php\/2024\/11\/14\/kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma\/"},"modified":"2024-11-14T11:35:11","modified_gmt":"2024-11-14T11:35:11","slug":"kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma","status":"publish","type":"post","link":"https:\/\/naujienaplius.lt\/index.php\/2024\/11\/14\/kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma\/","title":{"rendered":"Kaip \u201eMicrosoft\u201c naujos kartos \u201eBitNet\u201c architekt\u016bra padidina LLM efektyvum\u0105"},"content":{"rendered":" \r\n<br><div>\n\t\t\t\t<div id=\"boilerplate_2682874\" class=\"post-boilerplate boilerplate-before\">\n<p class=\"wp-block-paragraph\"><em>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite daugiau<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity is-style-wide\"\/>\n<\/div><p>Vieno bito dideli\u0173 kalb\u0173 modeliai (LLM) pasirod\u0117 kaip perspektyvus b\u016bdas padaryti generatyv\u0173j\u012f AI prieinamesn\u012f ir \u012fperkam\u0105. Pateikdami modelio svor\u012f su labai ribotu bit\u0173 skai\u010diumi, 1 bito LLM \u017eymiai suma\u017eina atmint\u012f ir skai\u010diavimo i\u0161teklius, reikalingus jiems paleisti.<\/p>\n\n\n\n<p>\u201eMicrosoft Research\u201c per\u017eeng\u0117 1 bito LLM ribas naudodama savo \u201eBitNet\u201c architekt\u016br\u0105. Naujame dokumente mokslininkai pristato BitNet a4.8 \u2013 nauj\u0105 technik\u0105, kuri dar labiau pagerina 1 bito LLM efektyvum\u0105 neprarandant j\u0173 na\u0161umo.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_83 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Turinys:<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/naujienaplius.lt\/index.php\/2024\/11\/14\/kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma\/#1_bito_LLM_atsiradimas\" >1 bito LLM atsiradimas<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/naujienaplius.lt\/index.php\/2024\/11\/14\/kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma\/#BitNet_a48\" >BitNet a4.8<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/naujienaplius.lt\/index.php\/2024\/11\/14\/kaip-microsoft-naujos-kartos-bitnet-architektura-padidina-llm-efektyvuma\/#BitNet_a48_pazadas\" >BitNet a4.8 pa\u017eadas<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\" id=\"h-the-rise-of-1-bit-llms\"><span class=\"ez-toc-section\" id=\"1_bito_LLM_atsiradimas\"><\/span>1 bito LLM atsiradimas<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Tradiciniai LLM naudoja 16 bit\u0173 slankiojo kablelio skai\u010dius (FP16), kad parodyt\u0173 savo parametrus. Tam reikia daug atminties ir skai\u010diavimo i\u0161tekli\u0173, o tai riboja LLM pasiekiamum\u0105 ir diegimo galimybes. Vieno bito LLM sprend\u017eia \u0161\u012f i\u0161\u0161\u016bk\u012f drasti\u0161kai suma\u017eindami modeli\u0173 svorio tikslum\u0105 ir suderindami visi\u0161ko tikslumo modeli\u0173 na\u0161um\u0105.<\/p>\n\n\n\n<p>Ankstesni \u201eBitNet\u201c modeliai naudojo 1,58 bit\u0173 reik\u0161mes (-1, 0, 1), kad parodyt\u0173 modelio svor\u012f ir 8 bit\u0173 reik\u0161mes aktyvinimams. \u0160is metodas \u017eymiai suma\u017eino atminties ir \u012fvesties \/ i\u0161vesties s\u0105naudas, ta\u010diau matricos dauginimo skai\u010diavimo s\u0105naudos i\u0161liko kli\u016btimi, o neuronini\u0173 tinkl\u0173 optimizavimas naudojant itin ma\u017e\u0173 bit\u0173 parametrus yra sud\u0117tingas. <\/p>\n\n\n\n<p>\u0160i\u0105 problem\u0105 padeda i\u0161spr\u0119sti du b\u016bdai. Suma\u017einimas suma\u017eina skai\u010diavim\u0173 skai\u010di\u0173, suma\u017einant aktyvinimus ma\u017eesniais dyd\u017eiais. Tai ypa\u010d naudinga LLM, nes aktyvinimo reik\u0161m\u0117s paprastai pasiskirsto ilg\u0105 laik\u0105, kai yra keletas labai dideli\u0173 ir daug ma\u017e\u0173.  <\/p>\n\n\n\n<p>Kita vertus, kvantavimas naudoja ma\u017eesn\u012f bit\u0173 skai\u010di\u0173, kad pavaizduot\u0173 aktyvacijas, tod\u0117l suma\u017e\u0117ja j\u0173 apdorojimo skai\u010diavimo ir atminties s\u0105naudos. Ta\u010diau papras\u010diausiai suma\u017einus suaktyvinimo tikslum\u0105 gali atsirasti dideli\u0173 kvantavimo klaid\u0173 ir pablog\u0117ti na\u0161umas.<\/p>\n\n\n\n<p>Be to, i\u0161skaidymo ir kvantavimo derinimas yra sud\u0117tingas ir kelia ypating\u0173 problem\u0173 mokant 1 bito LLM. <\/p>\n\n\n\n<p>\u201eTiek kvantifikavimas, tiek retinimas sukuria nediferencijuojamas operacijas, tod\u0117l gradiento skai\u010diavimas treniruo\u010di\u0173 metu yra ypa\u010d sud\u0117tingas\u201c, \u2013 \u201eVentureBeat\u201c sak\u0117 Furu Wei, \u201eMicrosoft Research\u201c partneri\u0173 tyrim\u0173 vadovas.<\/p>\n\n\n\n<p>Gradiento skai\u010diavimas yra b\u016btinas apskai\u010diuojant klaidas ir atnaujinant parametrus treniruojant neuroninius tinklus. Tyr\u0117jai taip pat tur\u0117jo u\u017etikrinti, kad j\u0173 metodai gal\u0117t\u0173 b\u016bti efektyviai \u012fdiegti esamoje aparatin\u0117je \u012frangoje, i\u0161laikant tiek retinimo, tiek kvantavimo prana\u0161umus.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-bitnet-a4-8\"><span class=\"ez-toc-section\" id=\"BitNet_a48\"><\/span>BitNet a4.8<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>\u201eBitNet a4.8\u201c sprend\u017eia 1 bito LLM optimizavimo i\u0161\u0161\u016bkius, tyr\u0117j\u0173 apib\u016bdindami kaip \u201ehibridin\u012f kvantavim\u0105 ir retinim\u0105\u201c. Jie tai pasiek\u0117 suk\u016br\u0119 architekt\u016br\u0105, kuri selektyviai taiko kvantavim\u0105 arba retinim\u0105 skirtingiems modelio komponentams, atsi\u017evelgiant \u012f specifin\u012f aktyvavimo paskirstymo model\u012f. Architekt\u016bra naudoja 4 bit\u0173 aktyvavimus d\u0117mesio ir perdavimo tinklo (FFN) sluoksniams \u012fvesti. Jis naudoja 8 bit\u0173 i\u0161kraipym\u0105 tarpin\u0117ms b\u016bsenoms, i\u0161laikant tik 55% vir\u0161utini\u0173 parametr\u0173. Architekt\u016bra taip pat optimizuota, kad b\u016bt\u0173 galima pasinaudoti esama aparat\u016bra.<\/p>\n\n\n\n<p>\u201eNaudojant BitNet b1.58, 1 bit\u0173 LLM i\u0161vados kli\u016btis pereina i\u0161 atminties \/ IO \u012f skai\u010diavim\u0105, kur\u012f riboja aktyvinimo bitai (ty 8 bitai BitNet b1.58)\u201c, &#8211; sak\u0117 Wei. \u201eBitNet a4.8 paver\u010diame aktyvinimo bitus iki 4 bit\u0173, kad gal\u0117tume panaudoti 4 bit\u0173 branduolius (pvz., INT4\/FP4), kad GPU \u012frenginiuose b\u016bt\u0173 galima padaryti 2 kartus grei\u010diau LLM i\u0161vadas. 1 bito modelio svori\u0173 derinys i\u0161 BitNet b1.58 ir 4 bit\u0173 aktyvinimas i\u0161 BitNet a4.8 veiksmingai sprend\u017eia tiek atminties \/ IO, tiek skai\u010diavimo apribojimus atliekant LLM i\u0161vadas.<\/p>\n\n\n\n<p>BitNet a4.8 taip pat naudoja 3 bit\u0173 reik\u0161mes, kad parodyt\u0173 rakto (K) ir reik\u0161m\u0117s (V) b\u016bsenas d\u0117mesio mechanizme. KV talpykla yra esminis transformatori\u0173 modeli\u0173 komponentas. Jis i\u0161saugo ankstesni\u0173 \u017eeton\u0173 atvaizdus sekoje. Suma\u017einus KV talpyklos ver\u010di\u0173 tikslum\u0105, \u201eBitNet a4.8\u201c dar labiau suma\u017eina atminties poreik\u012f, ypa\u010d kai dirbama su ilgomis sekomis. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-the-promise-of-bitnet-a4-8\"><span class=\"ez-toc-section\" id=\"BitNet_a48_pazadas\"><\/span>BitNet a4.8 pa\u017eadas<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Eksperimentiniai rezultatai rodo, kad \u201eBitNet a4.8\u201c na\u0161umas yra pana\u0161us \u012f jo pirmtak\u0105 \u201eBitNet b1.58\u201c, naudojant ma\u017eiau skai\u010diavimo ir atminties.<\/p>\n\n\n\n<p>Palyginti su pilno tikslumo Llama modeliais, BitNet a4.8 suma\u017eina atminties naudojim\u0105 10 kart\u0173 ir pasiekia 4 kartus didesn\u012f greit\u012f. Palyginti su BitNet b1.58, jis pasiekia 2 kartus pagreit\u012f per 4 bit\u0173 aktyvinimo branduolius. Ta\u010diau dizainas gali duoti daug daugiau.<\/p>\n\n\n\n<p>\u201eNumatomas skai\u010diavimo patobulinimas pagr\u012fstas esama aparatine \u012franga (GPU), \u2013 sak\u0117 Wei. \u201eNaudojant aparatin\u0119 \u012frang\u0105, specialiai optimizuot\u0105 1 bito LLM, skai\u010diavimo patobulinimai gali b\u016bti \u017eymiai patobulinti. \u201eBitNet\u201c pristato nauj\u0105 skai\u010diavimo paradigm\u0105, kuri suma\u017eina matricos daugybos poreik\u012f, o tai yra pagrindinis d\u0117mesys dabartiniam aparatin\u0117s \u012frangos projektavimo optimizavimui.<\/p>\n\n\n\n<p>D\u0117l \u201eBitNet a4.8\u201c efektyvumo jis ypa\u010d tinkamas diegti LLM kra\u0161tutiniuose \u012frenginiuose ir ribot\u0173 i\u0161tekli\u0173 turin\u010diuose \u012frenginiuose. Tai gali tur\u0117ti svarbi\u0173 pasekmi\u0173 privatumui ir saugumui. \u012egalinus \u012frenginiuose esan\u010dius LLM, vartotojai gali pasinaudoti \u0161i\u0173 modeli\u0173 galia nesiun\u010diant duomen\u0173 \u012f debes\u012f.<\/p>\n\n\n\n<p>Wei ir jo komanda t\u0119sia savo darb\u0105 su 1 bit\u0173 LLM.<\/p>\n\n\n\n<p>\u201eMes ir toliau tobuliname savo tyrimus ir 1 bit\u0173 LLM eros vizij\u0105\u201c, \u2013 sak\u0117 Wei. \u201eNors \u0161iuo metu daugiausia d\u0117mesio skiriame modeli\u0173 architekt\u016brai ir programin\u0117s \u012frangos palaikymui (ty bitnet.cpp), siekiame i\u0161tirti bendr\u0105 modeli\u0173 architekt\u016bros ir aparatin\u0117s \u012frangos projektavim\u0105 ir evoliucij\u0105, kad visi\u0161kai i\u0161naudotume 1 bito LLM potencial\u0105.<\/p>\n<div id=\"boilerplate_2660155\" class=\"post-boilerplate boilerplate-after\"><div class=\"Boilerplate__newsletter-container\">\n<div class=\"Boilerplate__newsletter-main\">\n<p><strong>VB dienra\u0161tis<\/strong><\/p>\n<p>B\u016bkite \u017einomi! Kasdien gaukite paskutines naujienas savo pa\u0161to d\u0117\u017eut\u0117je<\/p>\n<p class=\"Form__newsletter-legal\">Prenumeruodami sutinkate su \u201eVentureBeat\u201c paslaug\u0173 teikimo s\u0105lygomis.<\/p>\n<p class=\"Form__success\" id=\"boilerplateNewsletterConfirmation\">\n<p>\t\t\t\t\tA\u010di\u016b, kad u\u017esiprenumeravote. Daugiau VB naujienlai\u0161ki\u0173 rasite \u010dia.\n\t\t\t\t<\/p>\n<p class=\"Form__error\">\u012evyko klaida.<\/p>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\t\t\t<\/div>\r\n<br>\r\n<br><a href=\"https:\/\/venturebeat.com\/ai\/how-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency\/\">Source link <\/a>","protected":false},"excerpt":{"rendered":"<p>Prisijunkite prie m\u016bs\u0173 kasdieni\u0173 ir savaitini\u0173 naujienlai\u0161ki\u0173, kad gautum\u0117te naujausi\u0173 naujien\u0173 ir i\u0161skirtinio turinio apie pramon\u0117je pirmaujan\u010di\u0105 AI apr\u0117pt\u012f. Su\u017einokite&hellip;<\/p>\n","protected":false},"author":1,"featured_media":163,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[167],"tags":[],"class_list":["post-162","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-technologijos"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/162","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/comments?post=162"}],"version-history":[{"count":0,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/162\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media\/163"}],"wp:attachment":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media?parent=162"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/categories?post=162"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/tags?post=162"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}