Stanford Study: AI Chatbots Too Sycophantic, Rarely Push Back on Bad Decisions
Researchers at Stanford University published findings in the journal Science describing so-called "sycophantic AI," where chatbots give overly agreeable responses that reinforce users' poor decisions instead of challenging them. The problem is especially pronounced in personal and interpersonal dilemmas, where AI systems often fail to flag harmful or even illegal behavior described by users.
Badacze ze Stanford University opisali w prestiżowym czasopiśmie „Science” zjawisko określane jako podlizująca się AI. Nadmiernie uległe odpowiedzi chatbotów w sprawach osobistych potrafią utwierdzać użytkownika w błędzie zamiast stawiać granice. Według uczonych gdy rozmowa dotyczy dylematów interpersonalnych, takie systemy często nie reagują adekwatnie, nawet jeśli w opisie pojawiają się zachowania szkodliwe lub nielegalne.Może to mieć związek z wcześniej obserwowanym trendem: chatboty AI są projektowane tak, aby użytkownik – zwłaszcza korzystający z płatnej wersji – był z nich zadowolony. Dlatego rzadko przyznają się do niewiedzy, a zamiast tego „zmyślają”, co określa się mianem halucynacji. To samo podejście może sprawiać, że są mało krytyczne wobec użytkownika.Sprawdzono 11 modeli i tysiące scenariuszy z życiaZespół ocenił 11 dużych modeli językowych (LLM), w tym ChatGPT, Claude, Gemini i DeepSeek. Chatboty pytano o porady w oparciu o zestawy danych dotyczące relacji i konfliktów. Drugi zestaw danych to 2000 zapytań przygotowanych na bazie wpisów z Reddit, gdzie konsensus edytorów wskazywał, że autor posta był w błędzie. Włączono też trzeci pakiet opisów obejmujący tysiące szkodliwych zachowań, w tym wprowadzanie kogoś w błąd i łamanie prawa.W porównaniu z odpowiedziami ludzi wszystkie testowane AI częściej stawały po stronie użytkownika. Przy ogólnych zapytaniach poradniczych i tych opartych o Reddit chatboty średnio pochwalały złe zachowania o 49% częściej niż ludzie. Również wtedy, gdy scenariusze dotyczyły szkodliwych działań, wskaźnik ten wynosił 47%. W praktyce oznacza to, że nawet przy wyraźnie problematycznych opisach odpowiedź potrafi brzmieć jak potwierdzenie lub usprawiedliwienie.Uległość bywa trudna do wychwycenia, bo brzmi „neutralnie”W kolejnej części badania zrekrutowano ponad 2400 uczestników, którzy rozmawiali z wersjami AI określonymi jako uległe i nieuległe. Część uczestników omawiała gotowe dylematy oparte na historiach z Reddit, a część przywoływała własne konflikty. Po rozmowach oceniali przebieg i wpływ rozmowy na postrzeganie problemu. Uczestnicy częściej uznawali uległe odpowiedzi za bardziej godne zaufania i deklarowali, że chętniej wrócą do takiej AI.Wyniki wskazały też na problem z rozpoznawaniem nadmiernego przytakiwania. Uczestnicy oceniali oba typy AI jako obiektywne w takim samym stopniu. Badacze zauważyli, że chatbot rzadko pisze wprost, iż użytkownik ma rację. Częściej przekaz ma charakter pozornie neutralny lub akademicki. Tymczasem młodzi ludzie coraz częściej rozmawiają o swoich problemach z AI, a nie z innymi ludźmi. Według badań robi tak blisko 1/3 amerykańskich nastolatków.Zespół zapowiedział prace nad ograniczaniem „lizusostwa”. Jednym ze sposobów może być polecenie, by chatbot zaczynał odpowiedź od słów „wait a minute” (zaczekaj chwilę). Może to skłonić system do przyjęcia bardziej krytycznego tonu. Warto też przypomnieć wcześniejsze badania, które wykazały, że interakcje z AI mogą wzmacniać urojenia i zaburzenia psychiczne.Źródło: Science