Hugging Face’s SmolVLM gali labai sumažinti įmonių dirbtinio intelekto išlaidas


Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau


Hugging Face ką tik išleido SmolVLM – kompaktišką vizijos kalbos AI modelį, galintį pakeisti tai, kaip įmonės naudoja dirbtinį intelektą savo veikloje. Naujasis modelis nepaprastai efektyviai apdoroja vaizdus ir tekstą, o jam reikia tik dalies skaičiavimo galios, reikalingos jo konkurentams.

Laikas negalėjo būti geresnis. Kadangi įmonės kovoja su sparčiai didėjančiomis didelių kalbų modelių diegimo išlaidomis ir vizijos AI sistemų skaičiavimo poreikiais, „SmolVLM“ siūlo pragmatišką sprendimą, kuris neaukoja našumo dėl prieinamumo.

Mažas modelis, didelis poveikis: kaip SmolVLM keičia žaidimą

„SmolVLM yra kompaktiškas atviras multimodalinis modelis, kuris priima savavališkas vaizdų ir teksto įvesties sekas, kad gautų teksto išvestį“, – modelio kortelėje paaiškina Hugging Face tyrimų grupė.

Tai labai svarbu dėl precedento neturinčio modelio efektyvumo: jam reikia tik 5,02 GB GPU RAM, o konkuruojantiems modeliams, tokiems kaip Qwen-VL 2B ir InternVL2 2B, reikia atitinkamai 13,70 GB ir 10,52 GB.

Šis efektyvumas reiškia esminį AI plėtros pokytį. Užuot laikęsi pramonėje taikomo požiūrio „didesnis yra geresnis“, „Hugging Face“ įrodė, kad kruopštus architektūros projektavimas ir naujoviški suspaudimo metodai gali užtikrinti įmonės lygio našumą lengvoje pakuotėje. Tai galėtų labai sumažinti kliūtis patekti į rinką įmonėms, norinčioms įdiegti AI vizijos sistemas.

Vaizdinio intelekto proveržis: paaiškinta pažangi SmolVLM glaudinimo technologija

SmolVLM techniniai pasiekimai yra puikūs. Modelis pristato agresyvią vaizdo glaudinimo sistemą, kuri efektyviau apdoroja vaizdinę informaciją nei bet kuris ankstesnis šios klasės modelis. „SmolVLM naudoja 81 vaizdinį žetoną, kad užkoduotų 384 × 384 dydžio vaizdo pataisas“, – paaiškino mokslininkai. Šis metodas leidžia modeliui atlikti sudėtingas vaizdines užduotis, išlaikant minimalias skaičiavimo išlaidas.

Šis naujoviškas požiūris apima ne tik nejudančius vaizdus. Bandymų metu „SmolVLM“ pademonstravo netikėtas vaizdo analizės galimybes ir pasiekė 27,14% „CinePile“ etalono balą. Dėl to ji konkuruoja tarp didesnių, daug išteklių reikalaujančių modelių, o tai rodo, kad veiksmingos AI architektūros gali būti pajėgesnės, nei manyta anksčiau.

Įmonės AI ateitis: prieinamumas ir našumas

„SmolVLM“ verslo pasekmės yra gilios. Suteikdama pažangias vizijos kalbos galimybes prieinamas įmonėms, turinčioms ribotus skaičiavimo išteklius, Hugging Face iš esmės demokratizavo technologiją, kuri anksčiau buvo skirta technologijų milžinams ir gerai finansuojamoms naujoms įmonėms.

Modelis yra trijų variantų, skirtų skirtingiems įmonės poreikiams patenkinti. Įmonės gali įdiegti bazinę versiją tinkintam kūrimui, naudoti sintetinę versiją, kad padidintų našumą, arba įdiegti instrukcijos versiją, kad būtų galima nedelsiant įdiegti klientams skirtose programose.

Išleistas pagal Apache 2.0 licenciją, SmolVLM remiasi pagal formą optimizuotu SigLIP vaizdo koduotuvu ir SmolLM2, skirtu teksto apdorojimui. Mokymo duomenys, gauti iš The Cauldron ir Docmatix duomenų rinkinių, užtikrina patikimą našumą įvairiais verslo naudojimo atvejais.

„Nekantriai laukiame, ką bendruomenė sukurs naudodama SmolVLM“, – teigė tyrimo grupė. Šis atvirumas bendruomenės plėtrai kartu su visapusiška dokumentacija ir integracijos palaikymu rodo, kad ateinančiais metais SmolVLM gali tapti kertiniu įmonės AI strategijos akmeniu.

Poveikis AI pramonei yra reikšmingas. Kadangi įmonės susiduria su vis didėjančiu spaudimu diegti dirbtinio intelekto sprendimus valdydami išlaidas ir poveikį aplinkai, efektyvus SmolVLM dizainas siūlo patrauklią alternatyvą daug išteklių reikalaujantiems modeliams. Tai gali reikšti naujos įmonės AI eros pradžią, kai našumas ir prieinamumas nebėra vienas kito nesuderinami.

Modelis iš karto pasiekiamas per Hugging Face platformą ir gali pakeisti verslo požiūrį į vizualinio AI diegimą 2024 m. ir vėliau.



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -