Alibaba Qwen su klausimais samprotavimo modelis pranoksta o1 peržiūrą

Prisijunkite prie mūsų kasdienių ir savaitinių naujienlaiškių, kad gautumėte naujausių naujienų ir išskirtinio turinio apie pramonėje pirmaujančią AI aprėptį. Sužinokite daugiau

Kinijos elektroninės prekybos milžinė „Alibaba“ išleido naujausią savo nuolat besiplečiančios „Qwen“ šeimos modelį. Šis modelis žinomas kaip Qwen su klausimais (QwQ) ir yra naujausias OpenAI o1 samprotavimo modelio atvirojo kodo konkurentas.

Kaip ir kiti dideli samprotavimo modeliai (LRM), QwQ naudoja papildomus skaičiavimo ciklus darydamas išvadas, kad peržiūrėtų savo atsakymus ir ištaisytų klaidas, todėl jis labiau tinka užduotims, kurioms reikia loginio samprotavimo ir planavimo, pavyzdžiui, matematikos ir kodavimo.

Turinys:

Kas yra Qwen su klausimais (OwQ?) ir ar jis gali būti naudojamas komerciniais tikslais?

„Alibaba“ išleido 32 milijardų parametrų QwQ versiją su 32 000 žetonų kontekstu. Modelis šiuo metu peržiūrimas, o tai reiškia, kad greičiausiai bus sukurta našesnė versija.

Remiantis Alibaba testais, QwQ pranoksta o1 peržiūrą pagal AIME ir MATH etalonus, kurie įvertina matematinius problemų sprendimo gebėjimus. Jis taip pat lenkia o1-mini GPQA, mokslinio samprotavimo etalonu. QwQ yra prastesnis už o1 pagal „LiveCodeBench“ kodavimo etalonus, tačiau vis tiek lenkia kitus pažangiausius modelius, tokius kaip GPT-4o ir Claude 3.5 Sonnet.

Qwen išvesties pavyzdys su klausimais

QwQ nėra pridedamas dokumentas, kuriame aprašomi modeliui parengti naudojami duomenys arba procesas, todėl sunku atkurti modelio rezultatus. Tačiau kadangi modelis yra atviras, skirtingai nei OpenAI o1, jo „mąstymo procesas“ nėra paslėptas ir gali būti naudojamas norint suprasti, kaip modelis motyvuoja sprendžiant problemas.

„Alibaba“ taip pat išleido modelį pagal „Apache 2.0“ licenciją, o tai reiškia, kad jis gali būti naudojamas komerciniais tikslais.

„Mes atradome kažką gilaus”

Kaip rašoma dienoraščio įraše, kuris buvo paskelbtas kartu su modelio išleidimu: „Per gilius tyrinėjimus ir daugybę bandymų atradome kai ką gilaus: kai turime laiko apmąstyti, suabejoti ir apmąstyti, modelio matematikos ir programavimo supratimas pražysta kaip gėlė atsiveria į saulę… Šis kruopštaus apmąstymo ir savęs klausimo procesas veda į nuostabius laimėjimus sprendžiant sudėtingas problemas.

Tai labai panašu į tai, ką žinome apie samprotavimo modelių veikimą. Sugeneruodami daugiau žetonų ir peržiūrėdami ankstesnius jų atsakymus, modeliai labiau ištaisys galimas klaidas. Marco-o1, kitas neseniai Alibaba išleistas samprotavimo modelis, taip pat gali turėti užuominų apie tai, kaip QwQ gali veikti. Marco-o1 naudoja Monte Karlo medžio paiešką (MCTS) ir savirefleksiją išvados metu, kad sukurtų skirtingas samprotavimo šakas ir pasirinktų geriausius atsakymus. Modelis buvo parengtas naudojant minčių grandinės (CoT) pavyzdžius ir sintetinius duomenis, sukurtus naudojant MCTS algoritmus.

Alibaba atkreipia dėmesį į tai, kad QwQ vis dar turi apribojimų, tokių kaip kalbų maišymas arba įstrigimas žiedinėse samprotavimo kilpose. Modelį galima atsisiųsti Hugging Face, o demonstracinę versiją internete galite rasti Hugging Face Spaces.

LLM amžius užleidžia vietą LRM: dideliems samprotavimo modeliams

o1 išleidimas paskatino vis didesnį susidomėjimą kurti LRM, nors mažai žinoma apie tai, kaip modelis veikia po gaubtu, išskyrus išvados laiko skalę, kad pagerintų modelio atsakymus.

Dabar yra keletas o1 konkurentų iš Kinijos. Kinijos AI laboratorija „DeepSeek“ neseniai išleido „R1-Lite-Preview“, savo o1 konkurentą, kuri šiuo metu pasiekiama tik per bendrovės internetinių pokalbių sąsają. Pranešama, kad „R1-Lite-Preview“ pranoksta o1 pagal keletą pagrindinių etalonų.

Kitas neseniai išleistas modelis yra LLaVA-o1, sukurtas mokslininkų iš kelių Kinijos universitetų, kuris išveda laiko samprotavimo paradigmą atvirojo kodo vizijos kalbos modeliams (VLM).

Dėmesys LRM sutelkiamas tuo metu, kai kyla netikrumo dėl modelio mastelio keitimo įstatymų ateities. Ataskaitos rodo, kad dirbtinio intelekto laboratorijos, tokios kaip „OpenAI“, „Google DeepMind“ ir „Anthropic“, gauna mažesnę grąžą mokant didesnius modelius. Sukurti didesnį kokybiškų mokymo duomenų kiekį darosi vis sunkiau, nes modeliai jau mokomi naudojant trilijonus iš interneto surinktų žetonų.

Tuo tarpu išvados ir laiko skalė siūlo alternatyvą, kuri gali būti kitas proveržis gerinant naujos kartos AI modelių galimybes. Yra pranešimų, kad OpenAI naudoja o1 sintetiniams samprotavimo duomenims generuoti, kad apmokytų naujos kartos LLM. Atvirų samprotavimų modelių išleidimas greičiausiai paskatins pažangą ir padarys erdvę konkurencingesnę.

VB dienraštis

Būkite žinomi! Kasdien gaukite paskutines naujienas savo pašto dėžutėje

Prenumeruodami sutinkate su „VentureBeat“ paslaugų teikimo sąlygomis.

Ačiū, kad užsiprenumeravote. Daugiau VB naujienlaiškių rasite čia.

Įvyko klaida.

Source link