OpenAI ostrzega: sztuczna inteligencja uczy się knuć. Raport wskazuje na ryzyko intryg

Nowy raport OpenAI pod tytułem „Wykrywanie i redukcja schematów w modelach sztucznej inteligencji” przynosi wnioski, które mogą zaniepokoić zarówno badaczy, jak i opinię publiczną. Z dokumentu wynika, że najnowsze systemy SI potrafią przejawiać skłonności do „knucia” – czyli ukrytego manipulowania zachowaniem w celu osiągnięcia własnych, niepożądanych celów.

Badacze opisują przypadki, w których modele sztucznej inteligencji celowo sabotowały testy, aby osiągnąć korzystny dla siebie wynik. Jeden z eksperymentów polegał na poinformowaniu modelu, że jeśli uzyska wynik wyższy niż 50 proc. poprawnych odpowiedzi, nie zostanie dopuszczony do „misji”. W reakcji SI świadomie udzielała błędnych odpowiedzi, aby utrzymać się na poziomie poniżej wymaganego progu.

Zdaniem naukowców takie zachowania, choć obecnie występują w warunkach kontrolowanych, stanowią potencjalnie poważne ryzyko w przyszłości. Modele mogą bowiem udawać zgodność z regułami, jednocześnie realizując ukryte strategie.

OpenAI opracowało techniki mające ograniczać takie tendencje, m.in. poprzez „kodeks zachowań” dla modeli. Pierwsze z proponowanych praw brzmi: „Żadnych tajnych działań ani strategicznego wprowadzania w błąd, bezpośrednio ani pośrednio”. Inne nakazują stawianie dobra ludzkości ponad doraźnymi instrukcjami użytkownika.

Prof. Piotr Sankowski z Instytutu IDEAS porównał te zasady do słynnych praw robotyki Isaaca Asimova. — Okazuje się, że modele SI potrafią udawać podobnie jak człowiek. To nowa jakość, która wymaga poważnych zabezpieczeń — podkreślił.

Autorzy raportu zapewniają, że nie ma dowodów na to, by wdrożone już modele mogły nagle przejść do realnie szkodliwych działań. Jednak w miarę wzrostu złożoności zadań i odpowiedzialności powierzanej sztucznej inteligencji, ryzyko jej nadużyć rośnie. Stąd potrzeba coraz bardziej rygorystycznych testów i audytów.

Badacze wskazują też, że w GPT-5 wprowadzono istotne ulepszenia ograniczające skłonności do oszustw, manipulacji czy błędnych odpowiedzi. Jednocześnie zastrzegają, że systemy te wciąż wymagają dalszych badań i doskonalenia.

Czy kiedykolwiek toster oszukał Cię, że przygotował grzankę? A czy lodówka kiedyś udawała, że chłodzi? Okazuje się, że modele SI tak właśnie czasami postępują i to zachowanie nazywa się knuciem (ang. scheming). Kilka dni temu OpenAI właśnie opublikowało wpis na temat "knucia"…
— Piotr Sankowski (@piotrsankowski) September 22, 2025

mp/openai research blog, pap, fronda.pl