Chat GPT-4.5 przechodzi test Turinga

24 kwietnia 2025

W marcu 2025 roku naukowcy z Uniwersytetu Kalifornijskiego w San Diego, Cameron R. Jones i Benjamin K. Bergen, opublikowali wyniki eksperymentu, w którym cztery duże modele językowe (LLM) zostały poddane testowi Turinga. Wśród nich znalazły się: ELIZA, GPT-4o, LLaMa-3.1-405B oraz GPT-4.5. Celem badania było sprawdzenie, na ile te modele potrafią naśladować ludzką komunikację w sposób nieodróżnialny dla człowieka.

Przebieg eksperymentu

W badaniu wzięło udział 284 uczestników, którzy pełnili role przesłuchujących lub świadków. Każdy przesłuchujący prowadził jednoczesne, pięciominutowe rozmowy tekstowe z dwoma rozmówcami: jednym człowiekiem i jednym modelem językowym. Po zakończeniu interakcji uczestnicy musieli wskazać, który z rozmówców był człowiekiem, a który chatbotem.

Wyniki pokazały, że model GPT-4.5 został błędnie zidentyfikowany jako człowiek w 73% przypadków, co oznacza, że częściej niż rzeczywisty człowiek był uznawany za ludzkiego rozmówcę. Model LLaMa-3.1-405B uzyskał wynik 56%, natomiast starsze modele, takie jak ELIZA i GPT-4o, były mylone z człowiekiem odpowiednio w 23% i 21% przypadków.

Znaczenie testu Turinga

Test Turinga, zaproponowany przez Alana Turinga w 1950 roku, miał na celu ocenę zdolności maszyny do wykazywania inteligentnego zachowania nierozróżnialnego od ludzkiego. W klasycznej wersji testu uczestnik prowadzi rozmowę z maszyną i człowiekiem, nie wiedząc, kto jest kim, a jego zadaniem jest odgadnięcie, który z rozmówców jest człowiekiem.

Współczesne interpretacje testu skupiają się na zdolności modeli językowych do imitowania ludzkiej komunikacji. W przypadku GPT-4.5, jego sukces w teście Turinga nie oznacza, że model posiada świadomość czy rozumienie na poziomie człowieka, ale że potrafi skutecznie naśladować ludzkie zachowania językowe w określonym kontekście.

Kontrowersje i ograniczenia

Mimo imponujących wyników, test Turinga jako miara inteligencji sztucznej budzi kontrowersje. Krytycy wskazują, że test ocenia jedynie zdolność do imitacji zachowań ludzkich, nie uwzględniając głębszego rozumienia, świadomości czy intencji. Ponadto, sukces w teście może być wynikiem odpowiedniego dostosowania modelu do konkretnego zadania, a nie ogólnej inteligencji.

W przypadku GPT-4.5, jego zdolność do przekonującego naśladowania człowieka wynikała m.in. z zastosowania tzw. „persona prompts”, czyli instrukcji nakazujących modelowi przyjęcie określonej tożsamości, np. introwertycznego młodego człowieka korzystającego ze slangu internetowego

Implikacje społeczne i etyczne

Przekroczenie przez GPT-4.5 progu testu Turinga rodzi pytania o potencjalne zastosowania i nadużycia takich technologii. Modele zdolne do imitowania ludzkiej komunikacji mogą być wykorzystywane w edukacji, terapii czy obsłudze klienta, ale także w dezinformacji, manipulacji czy oszustwach.

Naukowcy podkreślają potrzebę opracowania regulacji i standardów etycznych dotyczących wykorzystania zaawansowanych modeli językowych. Kluczowe jest zapewnienie transparentności, odpowiedzialności i świadomości społecznej na temat możliwości i ograniczeń sztucznej inteligencji.

Źródła: arXiv, Live Science, v45.diplomacy.edu, Futurism

Przebieg eksperymentu

Znaczenie testu Turinga

Kontrowersje i ograniczenia

Implikacje społeczne i etyczne

Na skróty:

Na skróty: