Daugiarūšis RAG auga, štai geriausias būdas pradėti

Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau

Kai įmonės pradeda eksperimentuoti su daugiarūšiu būdu gautu papildytu generavimu (RAG), įmonės, teikiančios daugiarūšį įterpimą – būdą paversti duomenis į RAG nuskaitomus failus – pataria įmonėms pradėti nuo mažų vaizdų ir vaizdo įrašų įterpimo.

Multimodalinis RAG, RAG, kuris taip pat gali pateikti įvairių tipų failų iš teksto, vaizdų ar vaizdo įrašų, remiasi įterpimo modeliais, paverčiančiais duomenis į skaitmenines reprezentacijas, kurias AI modeliai gali nuskaityti. Įterpimai, galintys apdoroti visų rūšių failus, leidžia įmonėms rasti informaciją iš finansinių grafikų, produktų katalogų ar bet kokio informacinio vaizdo įrašo ir gauti visapusiškesnį įmonės vaizdą.

„Cohere“, atnaujinusi savo įterpimo modelį „Embed 3“, kad galėtų apdoroti vaizdus ir vaizdo įrašus praėjusį mėnesį, teigė, kad įmonės turi kitaip paruošti savo duomenis, užtikrinti tinkamą įterpimų našumą ir geriau naudoti daugiarūšį RAG.

„Prieš skiriant didelius išteklius daugiarūšiam įterpimui, verta jį išbandyti ribotesniu mastu. Tai leidžia įvertinti modelio našumą ir tinkamumą konkretiems naudojimo atvejams ir turėtų suteikti įžvalgų apie bet kokius koregavimus, kurių reikia prieš visišką diegimą“, – rašoma „Cohere“ personalo sprendimų architekto Yanno Stonemano tinklaraštyje.

Bendrovė teigė, kad daugelis šiame pranešime aptartų procesų yra daugelyje kitų daugiarūšio įterpimo modelių.

Stonemanas sakė, kad, atsižvelgiant į kai kurias pramonės šakas, modeliams taip pat gali prireikti „papildomo mokymo, kad būtų galima atpažinti smulkias detales ir vaizdų variantus“. Jis panaudojo medicinos programas kaip pavyzdį, kai radiologiniams nuskaitymams ar mikroskopinių ląstelių nuotraukoms reikalinga specializuota įterpimo sistema, kuri supranta tokių vaizdų niuansus.

Turinys:

Duomenų paruošimas yra labai svarbus

Prieš pateikiant vaizdus į multimodalinę RAG sistemą, jie turi būti iš anksto apdoroti, kad įterpimo modelis galėtų juos gerai perskaityti.

Gali tekti pakeisti vaizdų dydį, kad jie būtų vienodo dydžio, o organizacijos turi išsiaiškinti, ar jos nori patobulinti mažos skyros nuotraukas, kad svarbios detalės nepasimestų arba per didelės raiškos nuotraukos nebūtų prastesnės kokybės. neapkrauna apdorojimo laiko.

„Sistema turėtų galėti apdoroti vaizdo rodykles (pvz., URL ar failų kelius) kartu su tekstiniais duomenimis, o tai gali būti neįmanoma naudojant teksto įterpimą. Norint sukurti sklandžią vartotojo patirtį, organizacijoms gali tekti įdiegti pasirinktinį kodą, kad integruotų vaizdų ir esamo teksto paieškos funkciją“, – rašoma tinklaraštyje.

Daugiarūšis įterpimas tampa naudingesnis

Daugelis RAG sistemų daugiausia dirba su tekstiniais duomenimis, nes teksto informaciją naudoti kaip įterpimą yra lengviau nei vaizdus ar vaizdo įrašus. Tačiau kadangi dauguma įmonių turi visų rūšių duomenis, RAG, galinti ieškoti paveikslėlių ir tekstų, išpopuliarėjo. Organizacijos dažnai turėjo įdiegti atskiras RAG sistemas ir duomenų bazes, užkertant kelią mišrioms paieškoms.

Multimodalinė paieška nėra jokia naujiena, nes OpenAI ir Google siūlo tą patį savo atitinkamuose pokalbių robotuose. „OpenAI“ sausį pristatė naujausios kartos įterpimo modelius. Kitos įmonės taip pat suteikia galimybę įmonėms panaudoti skirtingus duomenis, skirtus multimodaliniam RAG. Pavyzdžiui, Uniphore išleido būdą, kaip padėti įmonėms paruošti daugiarūšius duomenų rinkinius RAG.

VB dienraštis

Būkite žinomi! Kasdien gaukite paskutines naujienas savo pašto dėžutėje

Prenumeruodami sutinkate su „VentureBeat“ paslaugų teikimo sąlygomis.

Ačiū, kad užsiprenumeravote. Daugiau VB naujienlaiškių rasite čia.

Įvyko klaida.

Source link