Dirbtinis intelektas, kuris paspaudžia jus: „Microsoft“ tyrimai rodo GUI automatizavimo ateitį

Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau

Išsami nauja „Microsoft“ tyrėjų ir akademinių partnerių apklausa atskleidžia, kad dirbtinio intelekto agentai, veikiantys didelių kalbų modeliais (LLM), vis labiau gali valdyti grafines vartotojo sąsajas (GUI), o tai gali pakeisti žmonių sąveiką su programine įranga.

Ši technologija iš esmės suteikia AI sistemoms galimybę matyti ir valdyti kompiuterių sąsajas taip, kaip tai daro žmonės – spustelėti mygtukus, pildyti formas ir naršyti tarp programų. Užuot reikalaudami, kad vartotojai išmoktų sudėtingų programinės įrangos komandų, šie „GUI agentai“ gali interpretuoti natūralios kalbos užklausas ir automatiškai atlikti reikiamus veiksmus.

„Šie agentai rodo paradigmos pokytį, leidžiantį vartotojams atlikti sudėtingas, kelių žingsnių užduotis per paprastas pokalbio komandas“, – rašo mokslininkai. „Jų programos apima žiniatinklio naršymą, mobiliųjų programų sąveiką ir darbalaukio automatizavimą, siūlydami transformuojančią vartotojo patirtį, kuri iš esmės keičia žmonių sąveiką su programine įranga.

Pagalvokite apie tai, kad turite aukštos kvalifikacijos vadovo padėjėją, galintį jūsų vardu valdyti bet kokią programinę įrangą. Jūs tiesiog pasakote asistentui, ką norite pasiekti, o jis tvarko visas technines smulkmenas, kad tai įvyktų.

Ši laiko juosta rodo spartų AI agentų, galinčių valdyti programinę įrangą, augimą, kai nuo 2023 m. atsiranda daugybė naujų modelių iš tyrėjų ir technologijų įmonių, suskirstytų pagal jų pritaikymą žiniatinklio, mobiliojo ryšio ir kompiuterių platformose. (Kreditas: arxiv.org)

Turinys:

Įmonių AI padėjėjų atsiradimas viską keičia

Didžiosios technologijų įmonės jau lenktyniauja, siekdamos įtraukti šias galimybes į savo gaminius. „Microsoft Power Automate“ naudoja LLM, kad padėtų vartotojams kurti automatizuotas darbo eigas įvairiose programose. Bendrovės „Copilot AI“ asistentas gali tiesiogiai valdyti programinę įrangą pagal tekstines komandas. „Anthropic“ kompiuterio naudojimo funkcija, skirta Claude’ui, leidžia dirbtiniam intelektui sąveikauti su žiniatinklio sąsajomis ir atlikti sudėtingas užduotis. Pranešama, kad „Google“ kuria „Project Jarvis“ – dirbtinio intelekto sistemą, kuri naudotų „Chrome“ naršyklę internetinėms užduotims, pvz., tyrimams, apsipirkimui ir kelionių užsakymui, atlikti, nors ši galimybė vis dar kuriama ir nebuvo viešai paskelbta.

„Didelių kalbų modelių, ypač daugiarūšių modelių, atsiradimas pradėjo naują GUI automatizavimo erą“, – pažymima dokumente. „Jie pademonstravo išskirtines natūralios kalbos supratimo, kodo generavimo, užduočių apibendrinimo ir vizualinio apdorojimo galimybes.”

„BCC Research“ analitikų teigimu, tai reiškia potencialią 68,9 milijardo USD rinkos galimybę iki 2028 m., nes įmonės siekia automatizuoti pasikartojančias užduotis ir padaryti savo programinę įrangą labiau prieinamą netechniniams vartotojams. Prognozuojama, kad rinka augs nuo 8,3 milijardo USD 2022 m. iki šio skaičiaus, o prognozuojamu laikotarpiu sudėtinis metinis augimo tempas (CAGR) sieks 43,9%.

Įmonės poveikis: AI automatizavimo iššūkiai ir galimybės

Tačiau dar yra didelių kliūčių, kol technologija bus plačiai pritaikyta įmonėms. Tyrėjai nustato keletą pagrindinių apribojimų, įskaitant privatumo problemas, kai agentai tvarko neskelbtinus duomenis, skaičiavimo našumo apribojimus ir geresnių saugos bei patikimumo garantijų poreikį.

„Nors šie metodai yra veiksmingi iš anksto nustatytoms darbo eigoms, jiems trūko lankstumo ir pritaikomumo, reikalingo dinamiškoms, realaus pasaulio programoms“, – teigiama dokumente apie ankstesnius automatizavimo metodus.

Tyrimo grupė pateikia išsamų šių iššūkių sprendimo planą, pabrėždama efektyvesnių modelių, galinčių veikti lokaliai įrenginiuose, kūrimo svarbą, įgyvendinti patikimas saugos priemones ir sukurti standartizuotas vertinimo sistemas.

„Įtraukdami apsaugos priemones ir pritaikomus veiksmus, šie agentai užtikrina efektyvumą ir saugumą vykdydami sudėtingas komandas“, – pažymi mokslininkai, pabrėždami naujausią pažangą, padarytą rengiant technologijų įmonę.

Įmonių technologijų lyderiams LLM pagrįstų GUI agentų atsiradimas yra ir galimybė, ir strateginis svarstymas. Nors technologija žada didelį produktyvumo padidėjimą dėl automatizavimo, organizacijos turės atidžiai įvertinti šių AI sistemų diegimo saugumą ir infrastruktūros reikalavimus.

„GUI agentų sritis juda prie kelių agentų architektūrų, daugiarūšių galimybių, įvairių veiksmų rinkinių ir naujų sprendimų priėmimo strategijų“, – aiškinama dokumente. „Šios naujovės žymi svarbius žingsnius kuriant protingus, prisitaikančius agentus, galinčius veikti įvairiose ir dinamiškose aplinkose.

Pramonės ekspertai prognozuoja, kad iki 2025 m. mažiausiai 60 % didelių įmonių bandys tam tikros formos GUI automatizavimo agentus, todėl gali padidėti efektyvumas, bet taip pat iškils svarbūs klausimai apie duomenų privatumą ir darbo vietų perkėlimą.

Išsami apklausa rodo, kad esame tokio posūkio taške, kai pokalbio AI sąsajos gali iš esmės pakeisti žmonių sąveiką su programine įranga, nors norint realizuoti šį potencialą, reikės nuolat tobulinti tiek pagrindines technologijas, tiek įmonės diegimo praktiką.

„Šie pokyčiai sudaro pagrindą universalesniems ir galingesniems agentams, galintiems valdyti sudėtingą, dinamišką aplinką“, – daro išvadą mokslininkai, nurodydami ateitį, kai dirbtinio intelekto asistentai taps neatsiejama mūsų darbo su kompiuteriais dalimi.

VB dienraštis

Būkite žinomi! Kasdien gaukite paskutines naujienas savo pašto dėžutėje

Prenumeruodami sutinkate su „VentureBeat“ paslaugų teikimo sąlygomis.

Ačiū, kad užsiprenumeravote. Daugiau VB naujienlaiškių rasite čia.

Įvyko klaida.

Source link