Anthropicov AI model Claude može obavljati složene zadatke na računalima. To signalizira novu eru automatizacije i alata za produktivnost vođenih umjetnom inteligencijom.
Anthropic je rastući konkurent OpenAI-u. Podignuo je razvoj umjetne inteligencije na novu razinu. Njihov model, Claude, uči kako obavljati zadatke poput pretraživanja weba i korištenja aplikacija. Također, može rukovati unosom teksta putem miša i tipkovnice na računalu. Ova inovacija sugerira da bi umjetna inteligencija mogla preuzeti neke svakodnevne digitalne zadatke.
U novoj eri, Claude može koristiti sve alate koje korisnici koriste za obavljanje zadataka. Jared Kaplan, glavni znanstveni direktor Anthropic-a, naglašava ovaj potencijal. U demonstraciji za portal WIRED, Claude je dobio zadatak da planira promatranje izlaska sunca. Na mostu Golden Gate u San Franciscu, AI je otvorio Google Chrome. Istražio je idealna vremena gledanja i zabilježio taj događaj u kalendaru. Međutim, nije sugerirao upute.
U drugoj demonstraciji, Claude je zatražen da izradi jednostavnu web stranicu. Koristeći tekstualni upit, AI je generirao kod. Otvorio je Visual Studio Code i pokrenuo web poslužitelj za testiranje stranice. To je rezultiralo odredišnom stranicom u retro stilu. Kada je zatraženo da riješi problem, Claude je identificirao pogrešku i ispravio je.
Izazovi uprkos impresivnim mogućnostima
Impresivne mogućnosti Claudea donose i izazove. Mike Krieger, glavni direktor proizvoda, smatra da će AI agenti smanjiti ponavljajuće zadatke. To će osloboditi vrijeme za kreativniji rad. Krieger se pita što bi se moglo učiniti bez hrpe sati kopiranja i lijepljenja. Kao odgovor, on bi više svirao gitaru.
Agentske mogućnosti pokreće Claude 3.5 Sonneta, najnapredniji jezični model Anthropic-a. Tu je i manji, nadograđeni model, Claude 3.5 Haiku. Iako su demonstracije impresivne, pouzdanost u stvarnom svijetu ostaje izazov. Trenutni modeli umjetne inteligencije, uključujući Claudea, mogu voditi razgovore i izvršavati računalne zadatke. No, često čine skupe ili dosadne pogreške. AI agenti komuniciraju sa zaslonima, tipkovnicama i softverskim sučeljima niske razine.
Anthropic tvrdi da Claude nadmašuje konkurente na različitim mjerilima. To uključuje SWE-bench, koji testira sposobnost kodiranja, i OSWorld, koji mjeri korištenje računala. Međutim, ovi rezultati još nisu neovisno provjereni, prema podacima iz WIRED-a.
AI ima problema s dugoročnim planiranjem i pogreškama. Claude je postigao stopu uspješnosti od 14,9 posto na OSWorldu. To je niže od ljudi koji su postigli 75 posto. Međutim, to je više od OpenAI-jevog GPT-4, koji je postigao samo 7,7 posto. Canva i Replit već testiraju Claudeove sposobnosti. Canva ga koristi za automatizaciju dizajnerskih zadataka, dok Replit koristi za kodiranje. Ostali rani korisnici uključuju The Browser Company, Asanu i Notion, prenosi Zimo Dnevnik.
Ofir Press, postdoktorand na Sveučilištu Princeton, ističe izazove s dugoročnim planiranjem. Prema njegovim riječima, AI agenti često imaju problema s oporavkom od pogrešaka. Da bi postali korisni, moraju postići snažne performanse na teškim mjerilima. Primjeri uključuju planiranje i rezerviranje cijelih putovanja.
Claude lošiji u rješavanju problema
Kaplan upozorava na mogućnosti Claudea u rješavanju problema. U jednom slučaju, Claude je revidirao svoju naredbu kako bi riješio pogrešku terminala. Također je omogućio skočne prozore kada se zaglavio tijekom pretraživanja weba.
Nekoliko tehnoloških tvrtki vodi utrku u razvoju AI agenata. Microsoft testira agente koji mogu upravljati Windows računalima. Oni su uložili preko 13 milijardi dolara u OpenAI. Amazon istražuje kako agenti mogu pomoći kupcima pri odabiru proizvoda i kupnji. Anthropic je, s druge strane, nametnuo ograničenja na ono što Claude može učiniti. Na primjer, ograničena je njegova mogućnost korištenja kreditne kartice korisnika za kupnju.
Unatoč razvikanim mogućnostima, Sonya Huang iz Sequoia upozorava na rebranding AI alata. Ona naglašava da ova tehnologija trenutno najbolje funkcionira u uskim domenama, kao što je rad vezan uz kodiranje.