Didelis kalbos perteklius: kaip SLM gali įveikti savo didesnius, daug išteklių reikalaujančius pusbrolius

Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau

Praėjus dvejiems metams nuo viešo ChatGPT išleidimo, pokalbiai apie AI yra neišvengiami, nes visos pramonės įmonės siekia panaudoti didelius kalbos modelius (LLM), kad pakeistų savo verslo procesus. Tačiau, kad ir kokie galingi ir perspektyvūs būtų LLM, daugelis verslo ir IT lyderių per daug jais pasikliauja ir nepastebi jų apribojimų. Štai kodėl tikiuosi ateities, kai specializuoti kalbų modeliai arba SLM atliks didesnį, papildomą vaidmenį įmonės IT srityje.

SLM dažniausiai vadinami „mažų kalbų modeliais“, nes jiems reikia mažiau duomenų ir mokymo laiko, be to, jie yra „supaprastintos LLM versijos“. Tačiau man labiau patinka žodis „specializuotas“, nes jis geriau perteikia šių specialiai sukurtų sprendimų galimybę atlikti labai specializuotus darbus tiksliau, nuosekliau ir skaidriau nei LLM. Papildydamos LLM SLM, organizacijos gali sukurti sprendimus, kurie išnaudotų kiekvieno modelio privalumus.

Turinys:

Pasitikėjimas ir LLM „juodosios dėžės“ problema

LLM yra neįtikėtinai galingi, tačiau jie taip pat žinomi dėl to, kad kartais „praranda siužetą“ arba siūlo rezultatus, kurie nukrypsta nuo kurso dėl bendro mokymo ir didžiulių duomenų rinkinių. Šią tendenciją dar labiau apsunkina tai, kad OpenAI ChatGPT ir kiti LLM iš esmės yra „juodosios dėžės“, kurios neatskleidžia, kaip jie gauna atsakymą.

Ši juodosios dėžės problema ateityje taps didesne problema, ypač įmonėms ir verslui svarbioms programoms, kur tikslumas, nuoseklumas ir atitiktis yra svarbiausi. Pagalvokite apie sveikatos priežiūrą, finansines paslaugas ir teisininkus kaip geriausius profesijų, kuriose netikslūs atsakymai gali turėti didžiulių finansinių pasekmių ir netgi gyvybę ar mirtį, pavyzdžius. Reguliavimo institucijos jau atkreipia dėmesį ir greičiausiai pradės reikalauti paaiškinamų AI sprendimų, ypač pramonės šakose, kurios remiasi duomenų privatumu ir tikslumu.

Nors įmonės dažnai taiko „žmogaus kilpoje“ metodą, kad sumažintų šias problemas, per didelis pasitikėjimas LLM gali sukelti klaidingą saugumo jausmą. Laikui bėgant gali atsirasti pasitenkinimas, o klaidos gali praslysti nepastebėtos.

SLM = didesnis paaiškinamumas

Laimei, SLM yra geriau pritaikyti daugeliui LLM apribojimų. Užuot sukurti bendrosios paskirties užduotims, SLM yra kuriami siauresniu dėmesiu ir apmokomi naudojant konkrečios srities duomenis. Šis specifiškumas leidžia jiems patenkinti niuansuotus kalbos reikalavimus tose srityse, kuriose tikslumas yra svarbiausias. Užuot pasikliavę didžiuliais, nevienalyčiais duomenų rinkiniais, SLM yra mokomi tikslinės informacijos, suteikiant jiems kontekstinį intelektą, kad būtų galima pateikti nuoseklesnius, nuspėjamus ir tinkamesnius atsakymus.

Tai suteikia keletą privalumų. Pirma, jie yra labiau paaiškinami, todėl lengviau suprasti jų rezultatų šaltinį ir pagrindimą. Tai labai svarbu reguliuojamose pramonės šakose, kur sprendimai turi būti atsekami iki šaltinio.

Antra, jų mažesnis dydis reiškia, kad jie dažnai gali veikti greičiau nei LLM, o tai gali būti labai svarbus veiksnys realiojo laiko programoms. Trečia, SLM suteikia įmonėms daugiau galimybių kontroliuoti duomenų privatumą ir saugumą, ypač jei jie yra įdiegti viduje arba sukurti specialiai įmonei.

Be to, nors SLM iš pradžių gali prireikti specializuoto mokymo, jie sumažina riziką, susijusią su trečiųjų šalių LLM, kontroliuojamų išorinių paslaugų teikėjų, naudojimu. Ši kontrolė yra neįkainojama tose programose, kurioms reikalingas griežtas duomenų tvarkymas ir atitiktis.

Sutelkite dėmesį į kompetencijos tobulinimą (ir būkite atsargūs pardavėjų, kurie per daug žada)

Noriu aiškiai pasakyti, kad LLM ir SLM vienas kito nesuderina. Praktiškai SLM gali papildyti LLM, sukurdami hibridinius sprendimus, kuriuose LLM suteikia platesnį kontekstą, o SLM užtikrina tikslų vykdymą. Taip pat vis dar ankstyvos dienos, net kai kalbama apie LLM, todėl visada patariu technologijų lyderiams ir toliau tyrinėti daugybę LLM galimybių ir privalumų.

Be to, nors LLM gali puikiai prisitaikyti prie įvairių problemų, SLM gali būti netinkamai perkeliama į tam tikrus naudojimo atvejus. Todėl svarbu iš anksto aiškiai suprasti, kokius naudojimo atvejus reikia spręsti.

Taip pat svarbu, kad verslo ir IT vadovai skirtų daugiau laiko ir dėmesio specialių įgūdžių, reikalingų mokymui, koregavimui ir SLM testavimui, ugdymui. Laimei, iš įprastų šaltinių, tokių kaip Coursera, YouTube ir Huggingface.co, yra daug nemokamos informacijos ir mokymų. Lyderiai turėtų užtikrinti, kad jų kūrėjai turėtų pakankamai laiko mokytis ir eksperimentuoti su SLM, nes kova dėl dirbtinio intelekto patirties intensyvėja.

Taip pat patariu vadovams atidžiai tikrinti partnerius. Neseniai kalbėjausi su įmone, kuri paklausė mano nuomonės dėl tam tikro technologijų tiekėjo pretenzijų. Mano nuomone, jie arba pervertina savo teiginius, arba tiesiog nepakankamai suprato technologijos galimybes.

Bendrovė išmintingai žengė žingsnį atgal ir įdiegė kontroliuojamą koncepcijos įrodymą, kad patikrintų pardavėjo teiginius. Kaip įtariau, sprendimas tiesiog nebuvo paruoštas geriausiu laiku, o įmonė sugebėjo pasitraukti, investavusi palyginti mažai laiko ir pinigų.

Nepriklausomai nuo to, ar įmonė pradeda nuo koncepcijos įrodymo, ar tiesioginio diegimo, patariu pradėti nuo mažo, dažnai testuoti ir remtis ankstyva sėkme. Aš asmeniškai patyriau darbą su nedideliu instrukcijų ir informacijos rinkiniu, tik tada, kai pateikiau modeliui daugiau informacijos, pastebėjau, kad rezultatai nukrypsta nuo kurso. Štai kodėl lėtas ir pastovus požiūris yra protingas.

Apibendrinant galima teigti, kad nors LLM ir toliau teiks vis vertingesnes galimybes, jų apribojimai tampa vis akivaizdesni, nes įmonės labiau pasikliauja dirbtiniu intelektu. Papildymas SLM suteikia kelią į priekį, ypač didelėse srityse, kuriose reikia tikslumo ir paaiškinamumo. Investuodamos į SLM, įmonės gali pritaikyti savo dirbtinio intelekto strategijas į ateitį, užtikrindamos, kad jų įrankiai ne tik skatintų naujoves, bet ir atitiktų pasitikėjimo, patikimumo ir kontrolės reikalavimus.

AJ Sunder yra vienas iš „Responsive“ įkūrėjų, CIO ir CPO.

DataDecisionMakers

Sveiki atvykę į VentureBeat bendruomenę!

„DataDecisionMakers“ yra vieta, kur ekspertai, įskaitant techninius žmones, atliekančius duomenų darbą, gali dalytis su duomenimis susijusiomis įžvalgomis ir naujovėmis.

Jei norite sužinoti apie pažangiausias idėjas ir naujausią informaciją, geriausią praktiką ir duomenų bei duomenų technologijų ateitį, prisijunkite prie mūsų „DataDecisionMakers“.

Jūs netgi galite apsvarstyti galimybę parašyti savo straipsnį!

Skaitykite daugiau iš DataDecisionMakers

Source link