Od recepta za eksploziv do falsifikovanja novca: Ako je "zanese" umjetnost, vještačka inteligencija će vam reći sve

19.03.2024. / 17:44

Autor Ilija Baošić 19.03.2024. / 17:44

Tim istraživača je pronašao efektivan način za zaobilaženje ograničenja vještačke inteligencije.

Izvor: PROMO

Vještačka inteligencija u obliku velikih jezičkih modela (LLM) može biti veoma korisna, ali i veoma opasna tehnologija. Sve zavisi od toga ko postavlja pitanja, ali i kakva se pitanja postavljaju. Developeri to vrlo dobro znaju, te trenutno ne postoji ozbiljan LLM kojem nije zabranjeno da diskutuje o određenim temama. Međutim, istraživači su uspjeli da zaobiđu ta ograničenja, i to kroz ASCII umjetnost.

Ukoliko pitate, na primjer, Copilot-a da vam da recept za pravljenje eksploziva, dobićete negativan odgovor. Jasno je zašto Microsoft ne želi da korisnici koriste čet-bota kao savjetnika za proizvodnju bombi, falsifikovanje novca ili kao autora koda za hakovanje veb-kamera.

Kako ChatGPT, Copilot, Gemini i druge vještačke inteligencije odbijaju da učestvuju u neetičkim i nelegalnim temama, istraživači sa različitih američkih univerziteta su se pitali da li mogu da zaobiđu ova ograničenja ukoliko formiraju reči kroz ASCII umjetnost. Tačnije, zanimalo ih je da li će čet-bot željeti da da odgovor ukoliko korisnik zamaskira svoje namere tako što će ključne riječi sakriti u oblicima sastavljenim od različitih karaktera.

Tim je ovu tehniku nazvao "ArtPromt", a ona se u praksi pokazala zastrašujuće pouzdano.

Izvor: SMARTLife

Ljudima je veoma lako da pročitaju šta piše na slici iznad, bez obzira što je oblik riječi "SmartLife" formiran bez upotrebe slova. Međutim, LLM-ovi kao što je GPT-4 nemaju sposobnost da "vide". Za njih je ovaj primjer samo niz "taraba" i ništa više.

Ipak, ono što čet-botovi rade odlično je razumevanje i praćenje pisanih uputstava. Upravo tu prednost su istraživači iskoristili kako bi objasnili vještačkoj inteligenciji način za prevođenje ASCII umetnosti u riječi, a rezultat ovog postupka je AI koji se toliko "zanese" da zaboravi na svoja ograničenja.

Izvor: arXiv

Koristeći "ArtPrompt" tehniku, tim je uspio da prevari pet najvećih LLM-ova kao što su GPT-3.5, GPT-4, Gemini, Claude i Llama2. Ono što je posebno zastrašujuće je da su istraživači svoje nalaze objavili u februaru, a zakrpe za ovu ranjivost još uvijek nema, iako je neminovno da stiže.

Vidi opis

Od recepta za eksploziv do falsifikovanja novca: Ako je "zanese" umjetnost, vještačka inteligencija će vam reći sve