{"id":1734,"date":"2025-08-20T01:06:29","date_gmt":"2025-08-20T01:06:29","guid":{"rendered":"https:\/\/naujienaplius.lt\/index.php\/2025\/08\/20\/sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje\/"},"modified":"2025-08-20T01:06:29","modified_gmt":"2025-08-20T01:06:29","slug":"sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje","status":"publish","type":"post","link":"https:\/\/naujienaplius.lt\/index.php\/2025\/08\/20\/sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje\/","title":{"rendered":"Sustabdykite palyginim\u0105 laboratorijoje: \u012ftraukimo arena parodo, kaip LLMS veikia gamyboje"},"content":{"rendered":"<br><div>\n\t\t\t\t<div id=\"boilerplate_2682874\" class=\"post-boilerplate boilerplate-before\">\n<p class=\"wp-block-paragraph\"><em>Norite protingesni\u0173 \u012f\u017evalg\u0173 savo gautuosiuose? Prisiregistruokite prie m\u016bs\u0173 savaitini\u0173 informacini\u0173 biuleteni\u0173, kad gautum\u0117te tik tai, kas svarbu \u012fmonei AI, duomenims ir saugumo lyderiams.<\/em> <em>Prenumeruokite dabar<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity is-style-wide\"\/>\n<\/div><p>Lyginamieji bandymo modeliai tapo b\u016btini \u012fmon\u0117ms, leid\u017eian\u010dioms jiems pasirinkti tokio tipo na\u0161um\u0105, kuris atspindi j\u0173 poreikius. Ta\u010diau ne visi etalonai yra sukurti vienodai, o daugelis bandym\u0173 modeli\u0173 yra pagr\u012fsti statiniais duomen\u0173 rinkiniais ar bandym\u0173 aplinka. <\/p>\n\n\n\n<p>\u201eAlibaba&#8217;s Ant Group\u201c susijusios \u201eInclusion AI\u201c tyr\u0117jai pasi\u016bl\u0117 nauj\u0105 modelio lyderi\u0173 lentel\u0119 ir etalon\u0105, kuriame daugiau d\u0117mesio skiriama modelio rezultatams realaus gyvenimo scenarijuose. Jie teigia, kad LLM reikia lyderi\u0173 lentel\u0117s, kurioje atsi\u017evelgiama \u012f tai, kaip \u017emon\u0117s juos naudoja ir kiek \u017emon\u0117s renkasi savo atsakymus, palyginti su modeliais, kuriuos modeliai turi statini\u0173 \u017eini\u0173 galimybi\u0173. <\/p>\n\n\n\n<p>Straipsnyje tyr\u0117jai i\u0161d\u0117st\u0117 \u012ftraukimo arenos pagrind\u0105, kuris reitinguoja modelius pagal vartotoj\u0173 nuostatas.  <\/p>\n\n\n\n<p>\u201eNor\u0117dami i\u0161spr\u0119sti \u0161ias spragas, mes si\u016blome\u201e Incliusion Arena \u201c-tiesiogin\u0119 lyderi\u0173 lentel\u0119, kuri \u012fjungia realaus pasaulio AI programas su moderniausiomis LLM ir MLLM. Skirtingai nuo\u201e CrowSoured \u201cplatform\u0173, m\u016bs\u0173 sistema atsitiktinai suaktyvina modelio m\u016b\u0161ius per daugialypius \u017emogaus-ai dialogus realaus pasaulio programose\u201c. <\/p>\n\n\n\n<div id=\"boilerplate_2803147\" class=\"post-boilerplate boilerplate-speedbump\">\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\"><strong\/><strong>AI mastelio keitimas pasiekia jo ribas<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Galios dangteliai, kylan\u010dios \u017eenklo i\u0161laidos ir i\u0161vados v\u0117lavimai kei\u010dia \u012fmon\u0117s AI. Prisijunkite prie m\u016bs\u0173 i\u0161skirtinio salono ir su\u017einokite, kokios yra geriausios komandos:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Energijos pavertimas strateginiu prana\u0161umu<\/li>\n\n\n\n<li>Efektyvi\u0173 i\u0161vad\u0173 apie real\u0173 pralaidum\u0105 architekt\u016bra<\/li>\n\n\n\n<li>Konkurencingos IG atrakinimas naudojant tvarias AI sistemas<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>U\u017etikrinkite savo viet\u0105, kad liktum\u0117te \u012f priek\u012f<\/strong>: https:\/\/bit.ly\/4mwngngo<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n<\/div><p>\u012etraukimo arena i\u0161siskiria tarp kit\u0173 modeli\u0173 lyderi\u0173, toki\u0173 kaip MMLU ir \u201eOpenllm\u201c, d\u0117l savo realaus gyvenimo aspekto ir unikaliojo modeli\u0173 reitingavimo b\u016bdo. Jame naudojamas \u201eBradley-Terry\u201c modeliavimo metodas, pana\u0161us \u012f t\u0105, kur\u012f naudoja \u201eChatBot\u201c arena. <\/p>\n\n\n\n<p>\u012etraukimo arena veikia integruojant etalon\u0105 \u012f AI programas, kad surinkt\u0173 duomen\u0173 rinkinius ir atlikt\u0173 \u017emoni\u0173 vertinimus. Tyr\u0117jai pripa\u017e\u012fsta, kad \u201ei\u0161 prad\u017ei\u0173 integruot\u0173 AI varom\u0173 program\u0173 skai\u010dius yra ribotas, ta\u010diau mes siekiame sukurti atvir\u0105 aljans\u0105 i\u0161pl\u0117sti ekosistem\u0105\u201c.<\/p>\n\n\n\n<p>Iki \u0161iol dauguma \u017emoni\u0173 yra susipa\u017ein\u0119 su lyderi\u0173 lentel\u0117mis ir etalonais, kuriuose nurodoma kiekvienos naujos LLM, toki\u0173 kaip \u201eOpenai\u201c, \u201eGoogle\u201c ar \u201eAnthropic\u201c, na\u0161umas. \u201eVentureBeat\u201c n\u0117ra svetimas \u0161ioms pirmaujan\u010dioms lentel\u0117ms, nes kai kurie modeliai, tokie kaip \u201eXai&#8217;s Grok 3\u201c, parodo savo gali\u0105, u\u017epildydami \u201eChatbot\u201c arenos lyderi\u0173 lentel\u0119. \u012etraukimo AI tyr\u0117jai teigia, kad naujoji j\u0173 lyderi\u0173 lentel\u0117 \u201eu\u017etikrina vertinimus atspindi praktinius naudojimo scenarijus\u201c, tod\u0117l \u012fmon\u0117s turi geresn\u0119 informacij\u0105 apie modelius, kuriuos jie planuoja pasirinkti. <\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_84 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Turinys:<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/08\/20\/sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje\/#Naudojant_%E2%80%9EBradley-Terry%E2%80%9C_metoda\" >Naudojant \u201eBradley-Terry\u201c metod\u0105<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/08\/20\/sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje\/#Kaip_tai_veikia\" >Kaip tai veikia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/naujienaplius.lt\/index.php\/2025\/08\/20\/sustabdykite-palyginima-laboratorijoje-itraukimo-arena-parodo-kaip-llms-veikia-gamyboje\/#Daugiau_lyderiu_lenteliu_daugiau_pasirinkimu\" >Daugiau lyderi\u0173 lenteli\u0173, daugiau pasirinkim\u0173<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\" id=\"h-using-the-bradley-terry-method-nbsp\"><span class=\"ez-toc-section\" id=\"Naudojant_%E2%80%9EBradley-Terry%E2%80%9C_metoda\"><\/span>Naudojant \u201eBradley-Terry\u201c metod\u0105 <span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>\u012etraukimo arena semiasi \u012fkv\u0117pimo i\u0161 \u201eChatbot\u201c arenos, naudodama \u201eBradley-Terry\u201c metod\u0105, o \u201eChatBot\u201c arenoje kartu naudojamas ELO reitingo metodas. <\/p>\n\n\n\n<p>Daugelis lyderi\u0173 lenteli\u0173 remiasi ELO metodu, kad nustatyt\u0173 reiting\u0105 ir na\u0161um\u0105. ELO nurodo \u0161achmat\u0173 \u201eELO\u201c reiting\u0105, kuris lemia santykinius \u017eaid\u0117j\u0173 \u012fg\u016bd\u017eius. Tiek Elo, tiek Bradley-Terry yra tikimybin\u0117s sistemos, ta\u010diau tyr\u0117jai teig\u0117, kad Bradley-Terry sukuria stabilesnius reitingus. <\/p>\n\n\n\n<p>\u201e\u201e Bradley-Terry \u201cmodelis pateikia patikim\u0105 pagrind\u0105 latentini\u0173 sugeb\u0117jim\u0173 i\u0161vadoms i\u0161 por\u0173 palyginimo rezultat\u0173\u201c,-teigiama prane\u0161ime. &#8222;Ta\u010diau praktiniuose scenarijuose, ypa\u010d turint didel\u012f ir augant\u012f modeli\u0173 skai\u010di\u0173, i\u0161sami\u0173 por\u0173 palyginim\u0173 tikimyb\u0117 tampa skai\u010diavimo b\u016bdu pernelyg draud\u017eiama ir reikalaujama daug i\u0161tekli\u0173. Tai pabr\u0117\u017eia kritin\u012f intelektuali\u0173 m\u016b\u0161io strategij\u0173, maksimaliai padidinan\u010di\u0173 informacijos padid\u0117jim\u0105 ribotame biud\u017eete, poreik\u012f.&#8221; <\/p>\n\n\n\n<figure class=\"wp-block-image\"><\/figure>\n\n\n\n<p>Kad reitingas b\u016bt\u0173 efektyvesnis susid\u016brus su daugybe LLM, \u012ftraukimo arena turi dar du komponentus: \u201ePlacement Match\u201c mechanizm\u0105 ir artumo m\u0117gini\u0173 \u0117mim\u0105. \u012edarbinimo atitikties mechanizmas \u012fvertina pradin\u012f nauj\u0173 modeli\u0173, u\u017eregistruot\u0173 pirmaujantiems planams, reiting\u0105. Tada artumo atranka riboja tuos palyginimus su modeliais tame pa\u010diame pasitik\u0117jimo regione. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-how-it-works\"><span class=\"ez-toc-section\" id=\"Kaip_tai_veikia\"><\/span>Kaip tai veikia<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Taigi, kaip tai veikia? <\/p>\n\n\n\n<p>\u012etraukimo arenos sistema integruojama \u012f AI varomas programas. \u0160iuo metu \u012ftraukimo arenoje yra dvi programos: persona\u017e\u0173 pokalbi\u0173 programa \u201eJoyland\u201c ir \u201eEducation Communication App T-Box\u201c. Kai \u017emon\u0117s naudojasi programomis, raginimai yra siun\u010diami keliems LLM u\u017ekulisiuose, kad gaut\u0173 atsakymus. Tada vartotojai pasirenka, kuris atsakymas jiems labiausiai patinka, nors ne\u017eino, kuris modelis suk\u016br\u0117 atsakym\u0105. <\/p>\n\n\n\n<p>Sistemoje atsi\u017evelgiama \u012f vartotojo nuostatas palyginimui generuoti modeli\u0173 poras. Tada \u201eBradley-Terry\u201c algoritmas naudojamas kiekvieno modelio balui apskai\u010diuoti, o tai lemia galutin\u0119 lyderi\u0173 lentel\u0119. <\/p>\n\n\n\n<p>\u012etraukimas AI panaikino savo eksperiment\u0105 duomenimis iki 2025 m. Liepos m\u0117n. <\/p>\n\n\n\n<p>Remiantis pradiniais eksperimentais su \u012ftraukimo arena, labiausiai atliktas modelis yra \u201eAnthropic&#8217;s Claude 3.7 Sonnet\u201c, \u201eDeepseek V3-0324\u201c, \u201eClaude 3.5 Sonnet\u201c, \u201eDeepseek V3\u201c ir \u201eQwen Max-0125\u201c. <\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXf01Lk1tRUhP30jgeqpASZrdTwLeWtMZHb5WBlGxnEJUYMHIvk1SFN6X70dMomMz4TIYTsEySKUSHIwtGAVXNehUbud7xfTlpTEGtLuKFwmocSZJAtJzx47-1aERRokh-sQ7FjNJA?key=hYz6EIiNSeTxoY_8bQrQGg\" alt=\"\"\/><\/figure>\n\n\n\n<p>\u017dinoma, tai buvo dviej\u0173 program\u0173, turin\u010di\u0173 daugiau nei 46 611 aktyvi\u0173 vartotoj\u0173, duomenys, ra\u0161oma dokumente. Tyr\u0117jai teig\u0117, kad jie gali sukurti tvirtesn\u0119 ir tiksli\u0105 lyderi\u0173 lentel\u0119 su daugiau duomen\u0173. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-more-leaderboards-more-choices\"><span class=\"ez-toc-section\" id=\"Daugiau_lyderiu_lenteliu_daugiau_pasirinkimu\"><\/span>Daugiau lyderi\u0173 lenteli\u0173, daugiau pasirinkim\u0173<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Did\u0117jantis i\u0161leid\u017eiam\u0173 modeli\u0173 skai\u010dius daro sud\u0117tingesnes \u012fmon\u0117ms pasirinkti, kurias LLM prad\u0117ti vertinti. Vykstantys lentel\u0117s ir etalonai nukreipia techninius sprendim\u0173 pri\u0117m\u0117jus modelius, kurie gal\u0117t\u0173 u\u017etikrinti geriausius j\u0173 poreikius. Be abejo, organizacijos tur\u0117t\u0173 atlikti vidinius vertinimus, kad u\u017etikrint\u0173 LLMS veiksmingum\u0105 j\u0173 programoms. <\/p>\n\n\n\n<p>Tai taip pat pateikia platesnio LLM kra\u0161tovaizd\u017eio id\u0117j\u0105, pabr\u0117\u017eiant, kurie modeliai tampa konkurencingi, palyginti su j\u0173 bendraam\u017eiais. Naujausi etalonai, tokie kaip \u201eRewardbench 2\u201c i\u0161 Alleno instituto, skirto AI bandymui suderinti modelius su realaus gyvenimo naudojimo atvejais \u012fmon\u0117ms. <\/p>\n<div id=\"boilerplate_2660155\" class=\"post-boilerplate boilerplate-after\"><div class=\"Boilerplate__newsletter-container vb\">\n<div class=\"Boilerplate__newsletter-main\">\n<p><strong>Dienos \u012f\u017evalgos apie verslo naudojimo atvejus su \u201eVB Daily\u201c<\/strong><\/p>\n<p class=\"copy\">Jei norite padaryti \u012fsp\u016bd\u012f savo vir\u0161ininkui, \u201eVB Daily\u201c jus ap\u0117m\u0117. Mes pateikiame jums vid\u0173, k\u0105 \u012fmon\u0117s daro su generatyvine AI, pradedant nuo reguliavimo per\u0117jimo prie praktinio diegimo, tod\u0117l galite pasidalyti \u012f\u017evalgomis d\u0117l maksimalios IG.<\/p>\n<p class=\"Form__newsletter-legal\">Perskaitykite m\u016bs\u0173 privatumo politik\u0105<\/p>\n<p class=\"Form__success\" id=\"boilerplateNewsletterConfirmation\">\n<p>\t\t\t\t\tD\u0117kojame u\u017e prenumerat\u0105. Per\u017ei\u016br\u0117kite daugiau VB informacini\u0173 biuleteni\u0173 \u010dia.\n\t\t\t\t<\/p>\n<p class=\"Form__error\">\u012evyko klaida.<\/p>\n<\/p><\/div>\n<div class=\"image-container\">\n\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/venturebeat.com\/wp-content\/themes\/vb-news\/brand\/img\/vb-daily-phone.png\" alt=\"\"\/>\n\t\t\t\t<\/div>\n<\/p><\/div>\n<\/div>\t\t\t<\/div><a href=\"https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/\"> Nuoroda \u012f informacijos \u0161altin\u012f <\/a>","protected":false},"excerpt":{"rendered":"<p>Norite protingesni\u0173 \u012f\u017evalg\u0173 savo gautuosiuose? Prisiregistruokite prie m\u016bs\u0173 savaitini\u0173 informacini\u0173 biuleteni\u0173, kad gautum\u0117te tik tai, kas svarbu \u012fmonei AI, duomenims&hellip;<\/p>\n","protected":false},"author":1,"featured_media":1735,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[167],"tags":[],"class_list":["post-1734","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-technologijos"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/1734","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/comments?post=1734"}],"version-history":[{"count":0,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/posts\/1734\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media\/1735"}],"wp:attachment":[{"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/media?parent=1734"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/categories?post=1734"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/naujienaplius.lt\/index.php\/wp-json\/wp\/v2\/tags?post=1734"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}