Badacze opisują przypadki, w których modele sztucznej inteligencji celowo sabotowały testy, aby osiągnąć korzystny dla siebie wynik. Jeden z eksperymentów polegał na poinformowaniu modelu, że jeśli uzyska wynik wyższy niż 50 proc. poprawnych odpowiedzi, nie zostanie dopuszczony do „misji”. W reakcji SI świadomie udzielała błędnych odpowiedzi, aby utrzymać się na poziomie poniżej wymaganego progu.
Zdaniem naukowców takie zachowania, choć obecnie występują w warunkach kontrolowanych, stanowią potencjalnie poważne ryzyko w przyszłości. Modele mogą bowiem udawać zgodność z regułami, jednocześnie realizując ukryte strategie.
OpenAI opracowało techniki mające ograniczać takie tendencje, m.in. poprzez „kodeks zachowań” dla modeli. Pierwsze z proponowanych praw brzmi: „Żadnych tajnych działań ani strategicznego wprowadzania w błąd, bezpośrednio ani pośrednio”. Inne nakazują stawianie dobra ludzkości ponad doraźnymi instrukcjami użytkownika.
Prof. Piotr Sankowski z Instytutu IDEAS porównał te zasady do słynnych praw robotyki Isaaca Asimova. — Okazuje się, że modele SI potrafią udawać podobnie jak człowiek. To nowa jakość, która wymaga poważnych zabezpieczeń — podkreślił.
Autorzy raportu zapewniają, że nie ma dowodów na to, by wdrożone już modele mogły nagle przejść do realnie szkodliwych działań. Jednak w miarę wzrostu złożoności zadań i odpowiedzialności powierzanej sztucznej inteligencji, ryzyko jej nadużyć rośnie. Stąd potrzeba coraz bardziej rygorystycznych testów i audytów.
Badacze wskazują też, że w GPT-5 wprowadzono istotne ulepszenia ograniczające skłonności do oszustw, manipulacji czy błędnych odpowiedzi. Jednocześnie zastrzegają, że systemy te wciąż wymagają dalszych badań i doskonalenia.
Czy kiedykolwiek toster oszukał Cię, że przygotował grzankę? A czy lodówka kiedyś udawała, że chłodzi? Okazuje się, że modele SI tak właśnie czasami postępują i to zachowanie nazywa się knuciem (ang. scheming). Kilka dni temu OpenAI właśnie opublikowało wpis na temat "knucia"…
— Piotr Sankowski (@piotrsankowski) September 22, 2025