Badacze opisują przypadki, w których modele sztucznej inteligencji celowo sabotowały testy, aby osiągnąć korzystny dla siebie wynik. Jeden z eksperymentów polegał na poinformowaniu modelu, że jeśli uzyska wynik wyższy niż 50 proc. poprawnych odpowiedzi, nie zostanie dopuszczony do „misji”. W reakcji SI świadomie udzielała błędnych odpowiedzi, aby utrzymać się na poziomie poniżej wymaganego progu.

Zdaniem naukowców takie zachowania, choć obecnie występują w warunkach kontrolowanych, stanowią potencjalnie poważne ryzyko w przyszłości. Modele mogą bowiem udawać zgodność z regułami, jednocześnie realizując ukryte strategie.

OpenAI opracowało techniki mające ograniczać takie tendencje, m.in. poprzez „kodeks zachowań” dla modeli. Pierwsze z proponowanych praw brzmi: „Żadnych tajnych działań ani strategicznego wprowadzania w błąd, bezpośrednio ani pośrednio”. Inne nakazują stawianie dobra ludzkości ponad doraźnymi instrukcjami użytkownika.

Prof. Piotr Sankowski z Instytutu IDEAS porównał te zasady do słynnych praw robotyki Isaaca Asimova. — Okazuje się, że modele SI potrafią udawać podobnie jak człowiek. To nowa jakość, która wymaga poważnych zabezpieczeń — podkreślił.

Autorzy raportu zapewniają, że nie ma dowodów na to, by wdrożone już modele mogły nagle przejść do realnie szkodliwych działań. Jednak w miarę wzrostu złożoności zadań i odpowiedzialności powierzanej sztucznej inteligencji, ryzyko jej nadużyć rośnie. Stąd potrzeba coraz bardziej rygorystycznych testów i audytów.

Badacze wskazują też, że w GPT-5 wprowadzono istotne ulepszenia ograniczające skłonności do oszustw, manipulacji czy błędnych odpowiedzi. Jednocześnie zastrzegają, że systemy te wciąż wymagają dalszych badań i doskonalenia.