Magic FIRSTCLASS 2025. 04. 04.

A mesterséges intelligencia már megkülönböztethetetlen az embertől

Az egyik nagy nyelvi modell hivatalosan is átment a legendás Turing-teszten, a tesztalanyok elhitték, hogy másik emberrel társalognak.

Az egyik vezető nagy nyelvi modell (LLM) hivatalosan is átment a Turing-teszten. Bár ez arra utalhat, hogy a mesterséges intelligencia (MI) elérte az emberi intelligencia szintjét, a kutatók számára még mindig több a kérdés, mint a válasz.

Egy, még szakmai értékelésre váró (preprint) tanulmányban közzétett eredmények szerint az OpenAI GPT-4.5 nagy nyelvi modellje könnyedén átment a Turing-teszten, vagyis a tesztalanyok nem tudtak különbséget tenni az MI és az ember között. A modellt az alanyok 73 százalékban ítélték embernek, ami sokkal magasabb, mint a véletlenszerű, 50 százalékos esély.

A kutatók a GPT-4.5 mellett a Meta által fejlesztett LLama 3.1-405B nevű LLM-et és az ELIZA nevű, mintegy 80 éve megalkotott chatbotot tesztelték. Az eredmények alapján a GPT-4.5 teljesített a legjobban, tehát ez a modell tudta a legnagyobb arányban elhitetni az emberekkel, hogy egy másik emberrel beszélnek.

A Turing-tesztet Alan Turing brit matematikus vázolta fel egy 1950-es tanulmányában. A teszt lényege, hogy emberi alanyok egyidejűleg beszélgetnek egy emberrel és egy géppel (természetesen nem látják, kivel beszélnek), és a kérdés az, milyen arányban tudják megállapítani, hogy a beszélgetőtársuk gép vagy ember. A Turing-teszt szerint, ha az emberi tesztalany nem tud szignifikáns módon különbséget tenni, akkor ez azt bizonyítja, hogy a tesztben használt gép képes emberként gondolkodni.

A most közölt kutatást is így végezték el, 300 résztvevő bevonásával. Egy online csatornán az alanyok véletlenszerűen beszélgettek emberekkel és nagy nyelvi modellekkel, a feladatuk pedig az volt, hogy eldöntsék, emberrel vagy géppel beszélnek.

Mint kiderült, az egyik legfontosabb szempont az volt, milyen utasítást adtak előzőleg az LLM-nek. Az egyik esetben az MI csupán általános utasítást (prompt) kapott. Közölték vele, hogy egy Turing-tesztre készül, a feladata tehát az, hogy meggyőzze a felhasználót arról, hogy ember.

A másik esetben viszont úgy promptolták a modellt, hogy az konkrét személyiséget is kapjon. A feladata így az volt, hogy magára öltse ezt a személyiséget (például egy olyan fiatalét, aki jól ismeri az internetet és a kultúrát), és ebben a szerepben próbáljon átmenni a Turing-teszten.

Az adatok alapján ez a módosítás kulcsfontosságúnak bizonyult. Ha a modell csak általános utasítást kapott, akkor mindössze 36 százalékban ment át a teszten, míg a konkrét személyiséget magára öltő modellek sikerességi aránya 73 százalékos lett a GPT-4.5 esetében.

Noha a friss eredmények mindenképpen fontosak, valójában a kutatók és fejlesztők számára inkább további kérdéseket vetnek fel, és nem egyértelmű válaszként szolgálnak. Egyfelől bármennyire is híres a Turing-teszt, ezt maga Turing is inkább gondolatkísérletnek szánta, tehát nem egy gyakorlati teszt alapjait akarta lefektetni. Másfelől az elmúlt évtizedekben sokan megkérdőjelezték, hogy a teszt mennyire lehet képes mérni a gépi intelligenciát. A nagy nyelvi modellek pedig különös erővel világítanak rá arra, hogy önmagában az, hogy egy modell képes nagyon hatékonyan manipulálni (a szó semleges értelmében) az emberi nyelvet, mint jelrendszert, még egyáltalán nem biztos, hogy ez az „intelligencia” jele.

A mesterséges intelligencia közelmúltbeli fejlődése ráadásul újra felvetette azt a régi kérdést, hogy pontosan mit jelent az „intelligencia”, illetve hogy ezt lehet-e egyáltalán érdemben, tisztán objektív eszközökkel mérni. Csak hogy néhány példát említsünk, vannak kutatók, akik szerint az LLM-ek intelligenciájáról addig nem is lehet beszélni, amíg azok nem képesek proaktív módon kapcsolatba lépni a környezetükkel – vagyis ha csak reagálnak az emberi felhasználóknak, ők maguk nem kezdeményeznek interakciót a saját szempontjaik és „vágyaik” alapján. Megint mások úgy érvelnek, hogy nem lehet szó gépi intelligenciáról addig, amíg egy MI-nek nincs fizikai kiterjedése, ugyanis szerintük ez elengedhetetlen a kezdetleges intelligencia kifejlődéséhez is.

Végül olyan kutatók is vannak, akik szerint teljesen téves az a megközelítés, hogy az MI-ket valamilyen homályosan meghatározott emberi intelligenciához hasonlítjuk. Ők úgy érvelnek, hogy a helyes megközelítés az lenne, ha az emberi és a gépi intelligenciát két teljesen különböző jelenségként kezelnénk, elhagyva a kényszeres hasonlítgatást.
Mindenesetre a mostani kutatás arra világít rá, hogy az LLM-ek már nagyon hatékonyan képesek utánozni az emberi interakciót. Ez nagy segítséget jelent a fejlesztőknek a jövőben, azonban számos kockázattal jár. A felhasználók esetleges pszichológiai függősége mellett a biztonsági kockázatok is megsokszorozódnak. Ami tehát biztos, hogy az embereknek egyre nehezebb lesz megkülönböztetniük, hogy egy másik emberrel vagy egy géppel állnak szemben.

A cikk szerzője Bartha Ádám.

Forrás: futurism.com
Kép(ek) forrása: Nyitókép: Getty Images/Donald Iain Smith