ChatGPT - performanse i točnost opadaju s vremenom -

Prema studiji koju su proveli istraživači kalifornijskih sveučilišta Stanford i Berkeley, izvedba OpenAI-jevih LLM-ova značajno se smanjila tijekom vremena. Bio je to iznenađujući rezultat ispitivanja kojim se zapravo htjelo utvrditi poboljšavaju li se ovi LLM-ovi jer se mogu ažurirati na temelju podataka, povratnih informacija korisnika i promjena dizajna.

Četiri zadatka

Istraživači su procijenili ponašanje GPT-3.5 i GPT-4 iz ožujka i lipnja 2023. na četiri zadatka: rješavanju matematičkih problema, odgovaranju na osjetljiva/opasna pitanja, generiranju koda i procjeni modela na temelju vizualnog zaključivanja.

Prilikom predstavljanja GPT-4 u svibnju ove godine, OpenAI je tvrdio kako je GPT-4 puno pouzdaniji i kreativniji te da može obraditi više nijansiranih uputa od GPT-3.5. Nedavno se pokazalo da GPT-4 uspješno prolazi teške ispite u profesionalnim područjima kao što su medicina i pravo. Međutim, istraživači su otkrili da su performanse i ponašanje GPT-3.5 i GPT-4 varirali u njihovim izdanjima iz ožujka i lipnja.

Rezultati ispitivanja

GPT-4 verzija iz ožujka 2023. mogla je identificirati proste brojeve s točnošću od 97,6%. No verzija iz lipnja pokazao je vrlo loše rezultate na istim pitanjima s 2,4 posto točnosti. S druge strane, u istom je zadatku verzija GPT-3.5 iz lipnja 2023. bila puno bolja od verzije iz ožujka.

Pokazalo se i kako je GPT-4 bio manje voljan odgovarati na osjetljiva pitanja u lipnju nego u ožujku, a i GPT-4 i GPT-3.5 imali su više pogrešaka u formatiranju prilikom generiranja koda u lipnju nego u ožujku.

Otpornost na napade

Dobra je vijest da je ažuriranje GPT-4 bilo otpornije na napade jailbreakinga od GPT-3.5. Riječ je o obliku manipulacije u kojem se upit kreira kako bi se prikrilo zlonamjerno pitanje i prekoračile granice zaštite.

Istraživači planiraju ažurirati u dugotrajnoj studiji u sklopu koje će na različitim zadacima redovito procjenjivati GPT-3.5, GPT-4 i druge LLM-ove. Istu stvar oni preporučuju svim korisnicima koji se u radu oslanjaju na LLM usluge.

Izvor: bug.hr

Analize

Karijera

Ekonomija

Osiguranje

Banke

Edukacija

Financa.ba

Analize

Karijera

Ekonomija

Osiguranje

Banke

Edukacija

Financa.ba

Zadnje objave

Možda vam se sviđa

ChatGPT – performanse i točnost opadaju s vremenom

Četiri zadatka

Rezultati ispitivanja

Otpornost na napade

Popularno

O Financi

Newsletter

Prijavite se na naš newsletter