OpenAI paātrina savus centienus dominēt topošajā MI tirgū, jo šonedēļ uzņēmums atklāja jaunāko un jaudīgāko modeli, ko tas ir izstrādājis līdz šim, ar nosaukumu GPT-4o. Šis jaunais lielās valodas modelis (LLM – large language model) tiek uzskatīts par multimodālu, jo tas var gan saprast, gan ģenerēt saturu no un uz tekstu, attēliem un audio nepieredzētā ātrumā.
Izlaišana OpenAI lielākais tehniskais lēciens kopš GPT-4 izlaišanas pagājušājā gadā un ChatGPT izlaišanas 2022. gada beigās. GPT-4o sola papildināt OpenAI populāro MI tērzēšanas robotu un pavērt pilnīgi jaunas robežas dabiskākai un multimodālākai mijiedarbībai starp cilvēkiem un MI sistēmām.
Prezentējot uzņēmuma jauno produktu, OpenAI tehnoloģiju nodaļas vadītāja Mira Murati teica: “GPT-4o spēj veikt loģiskus secinājumus, analizējot balsi, tekstu un attēlus. Tas ir neticami svarīgi, jo mēs raugāmies uz nākotnes mijiedarbību starp cilvēkiem un mašīnām.”
OpenAI demonstrē GPT-4o jaudīgās funkcijas tiešraides demonstrācijas laikā
Atklātā demonstrējumā Sanfrancisko, Murati un OpenAI pētnieki iepazīstināja ar GPT-4o ātrumu un plūstamību dažādos saziņas veidos. Modelis var klausīties balss uzdevumus un atbildēt ar dabisku balsi vidēji tikai 232 milisekundēs. Šis ir ātrums, kas ir vislīdzīgākais cilvēku vidējam reakcijas laikam – 200 milisekundes.
GPT-4o reālā laikā var analizēt attēlus un video, tulkot ēdienkartes no svešvalodas, komentēt sporta notikumus un izprast tehniskās shēmas. Tāpat GPT-4o var arī ģenerēt atbildes dažādos formātos, tostarp tekstu, attēlus un citus.
Kas ir vēl pievilcīgāk, GPT-4o apvieno visas šīs iespējas vienā neironu tīklā, nevis paļaujas uz atsevišķiem specializētiem modeļiem katrai modalitātei. Šīs lielās izmaiņas modeļa arhitektūrā novērš kavēšanos un nodrošina netraucētu multimodālu apmaiņu starp cilvēkiem un MI palīgu.
“Ja jums ir trīs dažādi modeļi, kas darbojas kopā, tas ievērojami palielina aizkavēšanos un grauj lietotāja pieredzi,” uzsvēra Murati.
Viņa piebilda: “Taču, ja jums ir viens modelis, kas pēc būtības spēj veikt loģiskus secinājumsu, analizējot audio, tekstu un attēlus, tad jūs vonēršat aizkavēšanos un varat mijiedarboties ar GPT-4o līdzīgi kā mēs sarunājamies tagad.”
Uzņēmums jau ir sācis ieviest GPT-4o teksta un attēlu izpratnes iespējas ChatGPT Plus maksas abonentiem un uzņēmuma klientiem. Tikmēr jaunā modeļa nodrošinātā balss mijiedarbība tuvāko nedēļu laikā sāks alfa testēšanu Plus lietotājiem.
“Jaunais balss (un video) režīms ir labākais datora interfeiss, ko jebkad esmu izmantojis,” komentēja OpenAI izpilddirektors Sems Altmens.
Viņš piebilda: “Tas šķiet kā mākslīgais intelekts no filmām; un man joprojām ir nedaudz pārsteigums, ka tas ir īsts. Cilvēka līmeņa reakcijas laika un izteiksmes izrādās ir liela pārmaiņa.”
GPT-4o salīdzinājumā ar iepriekšējiem modeļiem – galvenie jauninājumi
Lai gan OpenAI ir ieviesusi multimodālu ievadi, piemēram, attēlus ar iepriekšējām ChatGPT versijām, sākotnējais GPT-4, kas tika izlaists 2023. gada martā, joprojām galvenokārt bija teksta modelis. Lietotāji varēja koplietot vizuālo informāciju, taču atbildes, ko viņi saņēma no modeļa, joprojām bija teksta veidā.
GPT-4 bija liels lēciens salīdzinājumā ar GPT-3.5, jo tajā bija uzlabotas faktu zināšanas, spriešanas spējas un daudzvalodu atbalsts vairāk nekā 20 valodās. Tas ieguva 90. procentilē bēdīgi sarežģītajā ASV juristu eksāmenā un parādīja kodēšanas prasmes, kas varētu viegli konkurēt ar lielāko daļu programmētāju.
Tagad GPT-4o balstās uz šiem teksta talantiem, vienlaikus gūstot milzīgus soļus audio un vizuālajā izpratnē, kā kas trūka iepriekšējiem modeļiem.
Reāllaika balss mijiedarbība ar cilvēkam līdzīgām intonācijas korkecijām
Iespējams, GPT-4o visspilgtākā jaunā iespēja ir tā spēja iesaistīties reāllaika balss sarunās, kuras gandrīz neatšķiras no sarunas ar citu personu. Demonstrācijā māklsīgais intelekts atbildēja uz mutiskiem pamudinājumiem ar raitām mutiskām atbildēm cilvēka balsī. Modelis arī spēja mainīt toņus no muļķīgiem uz profesionāliem atkarībā no sarunas konteksta.
GPT-4o ir aprīkots, lai analizētu runātāja balss locījumu radītās emocijas un attiecīgi mainītu savu runas veidu. Vienu brīdi tas pat izteica dziemsas pieprasījumu, kad lūdza pastāstīt gulētiešanas pasaku. Šī reāllaika reaģētspēja ir ievērojams uzlabojums salīdzinājumā ar balss režīmu – sākotnējo uz audio balstīto funkciju, ko OpenAI ieviesa ChatGPT.
Balss režīma alfa versija vienkārši pārrakstīja balss ievades tekstā, nosūtīja tās caus GPT valodas modeli un pēc tam pārveidoja teksta izvades runā. Tas radīja lielāku latentumu, salīdzinot ar GPT-4o pilnībā racionalizēto konveijeru.
Daudzvalodu atbalsts
Lai gan GPT-4 bija liela OpenAI lēciens, apstrādājot ievades datus vairāk nekā 20 valodās, GPT-4o tagad atbalsta aptuveni 50 valodas teksta un runas jomā. Tas paplašina MI modeļa iespējamo lietojumu klāstu, tostarp reāllaika tulkošanas pakalpojumus.
Demonstrācijas laikā Murati izdevās sarunāties ar MI modeli, neskatoties uz pārslēgšanos starp angļu un itāļu valodām. Viņa saņēma tekoši tulkotas atbildes pretējā valodā, ko nodrošin;aja modeļa uzlabotās valodas prasmes.
Multimodālās ievades un izvades
Viens no daudzpusīgākajiem GPT-4o aspektiem ir tā spēja vienlaikus izprast teksta, attēla un audio kombinācijas ka ievadi un pēc tam ģenerēt vēleamo izvadi lietotāja vēlamajā formā.
Piemēram, māklsīgais intelekts var pieņemt rakstiska dokumenta fotoattēlu un pēc tam ģenerēt kopsavilkumu, kas izceļ galvenās detaļas. Tikmēr tas varētu noskatīties video, kurā redzams kāds, kurš strādā ar kodēšanas problēmu, un rakstiski sniegt paskaidrojošus komentārus par programmēšanas loģiku, kļūdām un ieteiktajiem risinājumiem.
Šī multimodālā elastība paver lielas iespējas daudzās nozarēs un lietojumprogrammās ārpus pašas ChatGPT tādās jomās kā izglītība, radoša multivides ražošana, datu vizualizācija un citas.
Zemas latences un izmaksas
Neskatoties uz ievērojami sarežģītāko multimodālo arhitektūru, OpenAI apgalvo, ka GPT-4o faktiski būs ātrāks un lētāks, salīdzinot ar GPT-4. Jaunais modelis nodrošina divreiz lielāku veiktspēju par uz pusi mazākām infrastruktūras izmaksām nekā tā priekšgājējs.
Šis modeļa efektivitātes uzlabojums izriet no vienota multimodāla neironu tīkla, kas novērš dažādu datu formātu apstrādē iesaistīto cauruļvadu atdalīšanu. OpenAI jau ievieš GPT-4o savā API, lai izstrādātāji un uzņēmumi varētu izmantot šo zemo latentuma, multimodālo MI risinājumu par zemākām ekspluatācijas izmaksām.
Apple un Google drīzumā varētu atklāt savus sasniegumus mākslīgā intelekta jomā
Lai gan OpenAI ir atkal pacēlis latiņu mākslīgā intelekta vidū ar GPT-4o izlaidumu, joprojām turpinās sacensības, lai izstrādātu jaudīgākos modeļus. Paredzams, ka drīzumā Google ikgadējās Google I/O izstrādātāju konferences laikā nodrošinās arī savu multimodālā MI atjauninājumus ar nosaukumu Gemini.
Tikmēr Apple, visticamāk, būs gandrīz gatavs dalīties ar saviem jaunajiem sasniegumiem Pasaules izstrādātāju konferencē, kas sāksies 10. jūnijā. Turklāt mazāki spēlētāji, piemēram, Anthropic, ir turpinājuši virzīt robežas tam, kas ir iespējams ar ģeneratīvo MI.
Nesen Anthropic, populārā konstitucionālā MI modeļa Claude izstrādātājs, paziņoja, ka viņu risinājums tagad būs pieejams lietotājiem Eiropas Savienībā un iOS lietotājiem, izmantojot jaunu lietotni, kas tagad ir pieejama populārajā Apple App Store mobilo ierīču tirgū.
Tomēr OpenAI un tā galvenajam atbalstītājam Microsoft (MSFT) GPT-4o ir vēl viens liels lēciens, kas apliecina viņu dominējošo stāvokli šajā ļoti konkrētajā jomā. Tādā tempā mums var būt tikai mēneši, lai piedzīvotu pirmo mākslīgo vispārējo intelektu (AGI) vai kaut ko tam līdzīgu.
Viens papildu solis, kas jāveic, lai sasniegtu šo lielo pagrieziena punktu, būtu video apstrādes iespēju integrācija. Sora izlaišana šī gada februārī iezīmēja svarīgu soli uz priekšu šaja virzienā.
“Mēs zinām, ka šie modeļi kļūst arvien sarežģītāki, taču mēs vēlamies, lai mijiedarbības pieredze kļūtu dabiskāka, vienkāršāka un lai jūs vispār nekoncentrētos uz lietotāja interfeisu, bet gan tikai uz sadarbību ar ChatGPT,” Murati uzsvēra.
“Pēdējos pāris gadu mēs esam ļoti koncentrējušies uz šo modeļu inteliģences uzlabošanu. Taču šī ir pirmā reize, kad mēs patiešām speram milzīgu solu uz priekšu lietošanas ēruma jomā,” viņa piebilda.
Šķiet pārsteidzoši acīmredzams, ka tehnoloģija, ko šonedēļ demonstrēja OpenaAI, tuvina mūs vairākus soļus tuvāk, lai AGI vīzija kļūtu par ne tik tālu realitāti.