Sustabdykite palyginimą laboratorijoje: įtraukimo arena parodo, kaip LLMS veikia gamyboje


Norite protingesnių įžvalgų savo gautuosiuose? Prisiregistruokite prie mūsų savaitinių informacinių biuletenių, kad gautumėte tik tai, kas svarbu įmonei AI, duomenims ir saugumo lyderiams. Prenumeruokite dabar


Lyginamieji bandymo modeliai tapo būtini įmonėms, leidžiančioms jiems pasirinkti tokio tipo našumą, kuris atspindi jų poreikius. Tačiau ne visi etalonai yra sukurti vienodai, o daugelis bandymų modelių yra pagrįsti statiniais duomenų rinkiniais ar bandymų aplinka.

„Alibaba’s Ant Group“ susijusios „Inclusion AI“ tyrėjai pasiūlė naują modelio lyderių lentelę ir etaloną, kuriame daugiau dėmesio skiriama modelio rezultatams realaus gyvenimo scenarijuose. Jie teigia, kad LLM reikia lyderių lentelės, kurioje atsižvelgiama į tai, kaip žmonės juos naudoja ir kiek žmonės renkasi savo atsakymus, palyginti su modeliais, kuriuos modeliai turi statinių žinių galimybių.

Straipsnyje tyrėjai išdėstė įtraukimo arenos pagrindą, kuris reitinguoja modelius pagal vartotojų nuostatas.

„Norėdami išspręsti šias spragas, mes siūlome„ Incliusion Arena “-tiesioginę lyderių lentelę, kuri įjungia realaus pasaulio AI programas su moderniausiomis LLM ir MLLM. Skirtingai nuo„ CrowSoured “platformų, mūsų sistema atsitiktinai suaktyvina modelio mūšius per daugialypius žmogaus-ai dialogus realaus pasaulio programose“.


AI mastelio keitimas pasiekia jo ribas

Galios dangteliai, kylančios ženklo išlaidos ir išvados vėlavimai keičia įmonės AI. Prisijunkite prie mūsų išskirtinio salono ir sužinokite, kokios yra geriausios komandos:

  • Energijos pavertimas strateginiu pranašumu
  • Efektyvių išvadų apie realų pralaidumą architektūra
  • Konkurencingos IG atrakinimas naudojant tvarias AI sistemas

Užtikrinkite savo vietą, kad liktumėte į priekį: https://bit.ly/4mwngngo


Įtraukimo arena išsiskiria tarp kitų modelių lyderių, tokių kaip MMLU ir „Openllm“, dėl savo realaus gyvenimo aspekto ir unikaliojo modelių reitingavimo būdo. Jame naudojamas „Bradley-Terry“ modeliavimo metodas, panašus į tą, kurį naudoja „ChatBot“ arena.

Įtraukimo arena veikia integruojant etaloną į AI programas, kad surinktų duomenų rinkinius ir atliktų žmonių vertinimus. Tyrėjai pripažįsta, kad „iš pradžių integruotų AI varomų programų skaičius yra ribotas, tačiau mes siekiame sukurti atvirą aljansą išplėsti ekosistemą“.

Iki šiol dauguma žmonių yra susipažinę su lyderių lentelėmis ir etalonais, kuriuose nurodoma kiekvienos naujos LLM, tokių kaip „Openai“, „Google“ ar „Anthropic“, našumas. „VentureBeat“ nėra svetimas šioms pirmaujančioms lentelėms, nes kai kurie modeliai, tokie kaip „Xai’s Grok 3“, parodo savo galią, užpildydami „Chatbot“ arenos lyderių lentelę. Įtraukimo AI tyrėjai teigia, kad naujoji jų lyderių lentelė „užtikrina vertinimus atspindi praktinius naudojimo scenarijus“, todėl įmonės turi geresnę informaciją apie modelius, kuriuos jie planuoja pasirinkti.

Naudojant „Bradley-Terry“ metodą

Įtraukimo arena semiasi įkvėpimo iš „Chatbot“ arenos, naudodama „Bradley-Terry“ metodą, o „ChatBot“ arenoje kartu naudojamas ELO reitingo metodas.

Daugelis lyderių lentelių remiasi ELO metodu, kad nustatytų reitingą ir našumą. ELO nurodo šachmatų „ELO“ reitingą, kuris lemia santykinius žaidėjų įgūdžius. Tiek Elo, tiek Bradley-Terry yra tikimybinės sistemos, tačiau tyrėjai teigė, kad Bradley-Terry sukuria stabilesnius reitingus.

„„ Bradley-Terry “modelis pateikia patikimą pagrindą latentinių sugebėjimų išvadoms iš porų palyginimo rezultatų“,-teigiama pranešime. „Tačiau praktiniuose scenarijuose, ypač turint didelį ir augantį modelių skaičių, išsamių porų palyginimų tikimybė tampa skaičiavimo būdu pernelyg draudžiama ir reikalaujama daug išteklių. Tai pabrėžia kritinį intelektualių mūšio strategijų, maksimaliai padidinančių informacijos padidėjimą ribotame biudžete, poreikį.”

Kad reitingas būtų efektyvesnis susidūrus su daugybe LLM, įtraukimo arena turi dar du komponentus: „Placement Match“ mechanizmą ir artumo mėginių ėmimą. Įdarbinimo atitikties mechanizmas įvertina pradinį naujų modelių, užregistruotų pirmaujantiems planams, reitingą. Tada artumo atranka riboja tuos palyginimus su modeliais tame pačiame pasitikėjimo regione.

Kaip tai veikia

Taigi, kaip tai veikia?

Įtraukimo arenos sistema integruojama į AI varomas programas. Šiuo metu įtraukimo arenoje yra dvi programos: personažų pokalbių programa „Joyland“ ir „Education Communication App T-Box“. Kai žmonės naudojasi programomis, raginimai yra siunčiami keliems LLM užkulisiuose, kad gautų atsakymus. Tada vartotojai pasirenka, kuris atsakymas jiems labiausiai patinka, nors nežino, kuris modelis sukūrė atsakymą.

Sistemoje atsižvelgiama į vartotojo nuostatas palyginimui generuoti modelių poras. Tada „Bradley-Terry“ algoritmas naudojamas kiekvieno modelio balui apskaičiuoti, o tai lemia galutinę lyderių lentelę.

Įtraukimas AI panaikino savo eksperimentą duomenimis iki 2025 m. Liepos mėn.

Remiantis pradiniais eksperimentais su įtraukimo arena, labiausiai atliktas modelis yra „Anthropic’s Claude 3.7 Sonnet“, „Deepseek V3-0324“, „Claude 3.5 Sonnet“, „Deepseek V3“ ir „Qwen Max-0125“.

Žinoma, tai buvo dviejų programų, turinčių daugiau nei 46 611 aktyvių vartotojų, duomenys, rašoma dokumente. Tyrėjai teigė, kad jie gali sukurti tvirtesnę ir tikslią lyderių lentelę su daugiau duomenų.

Daugiau lyderių lentelių, daugiau pasirinkimų

Didėjantis išleidžiamų modelių skaičius daro sudėtingesnes įmonėms pasirinkti, kurias LLM pradėti vertinti. Vykstantys lentelės ir etalonai nukreipia techninius sprendimų priėmėjus modelius, kurie galėtų užtikrinti geriausius jų poreikius. Be abejo, organizacijos turėtų atlikti vidinius vertinimus, kad užtikrintų LLMS veiksmingumą jų programoms.

Tai taip pat pateikia platesnio LLM kraštovaizdžio idėją, pabrėžiant, kurie modeliai tampa konkurencingi, palyginti su jų bendraamžiais. Naujausi etalonai, tokie kaip „Rewardbench 2“ iš Alleno instituto, skirto AI bandymui suderinti modelius su realaus gyvenimo naudojimo atvejais įmonėms.

Nuoroda į informacijos šaltinį

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -