Image by Aerps.com, from Unsplash

Jedna trzecia odpowiedzi wyszukiwania AI zawiera niepoparte twierdzenia, wynika z badania

Przeczytasz w: 2 min

Ostatnia aktualizacja: Sep 19, 2025

Autor: Kiara Fabbri Była autorka artykułów dot. nowinek technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Nowe badanie twierdzi, że narzędzia AI, zaprojektowane do odpowiadania na pytania i przeprowadzania badań online, mają problemy z dotrzymaniem swoich obietnic.

W pośpiechu? Oto najważniejsze informacje:

GPT-4.5 podało niepoparte twierdzenia w 47% odpowiedzi.
Głęboki agent badawczy Perplexity osiągnął 97,5% niepopartych twierdzeń.
Narzędzia często prezentują jednostronne lub zbyt pewne siebie odpowiedzi na pytania debatujące.

Badacze poinformowali, że około jedna trzecia odpowiedzi udzielanych przez generatywne wyszukiwarki AI i głęboko badające agentów zawierała niepoparte twierdzenia, a wiele z nich była przedstawiana w stronniczy lub jednostronny sposób.

Badanie, przeprowadzone przez Pranava Narayanana Venkita z Salesforce AI Research, testowało systemy takie jak GPT-4.5 i 5 od OpenAI, Perplexity, You.com, Bing Chat od Microsoftu oraz Google Gemini. Przez 303 zapytania, odpowiedzi były oceniane według ośmiu kryteriów, w tym czy twierdzenia były poparte źródłami.

Wyniki były niepokojące. GPT-4.5 generowało niepoparte twierdzenia w 47 procentach odpowiedzi. Bing Chat miał niepoparte stwierdzenia w 23 procentach przypadków, podczas gdy You.com i Perplexity osiągnęły około 31 procent.

Agent do głębokich badań firmy Perplexity wypadł najgorzej, aż 97,5 procent jego twierdzeń nie miało podstaw. „Zdecydowanie byliśmy zaskoczeni, widząc to” – powiedział Narayanan Venkit do New Scientist.

Badacze wyjaśniają, że generatywne wyszukiwarki (GSEs) i agenty do głębokich badań (DRs) mają za zadanie zbierać informacje, cytować wiarygodne źródła i dostarczać odpowiedzi w formie długich tekstów. Jednak w praktyce często zawodzą.

Ramka oceny, nazwana DeepTRACE, pokazała, że te systemy często dają „jednostronne i zbyt pewne odpowiedzi na pytania debatujące i zawierają duże części stwierdzeń niepopartych przez ich własne wymienione źródła”, jak zauważyli badacze.

Krytycy ostrzegają, że to podważa zaufanie użytkowników. New Scientist donosi, że Felix Simon z University of Oxford powiedział: „Często pojawiają się skargi od użytkowników i różne badania pokazują, że pomimo znaczących ulepszeń, systemy AI mogą dostarczać jednostronne lub mylące odpowiedzi.”

„Tak więc, ten artykuł dostarcza pewnych ciekawych dowodów na ten problem, które miejmy nadzieję, pomogą pobudzić dalsze ulepszenia w tym zakresie,” dodał.

Inni kwestionowali metody, ale zgodzili się, że niezawodność i transparentność nadal stanowią poważne obawy. Jak stwierdzili badacze, „obecne systemy publiczne nie spełniają swojej obietnicy dostarczania wiarygodnej, opartej na źródłach syntezy.”

Jedna trzecia odpowiedzi wyszukiwania AI zawiera niepoparte twierdzenia, wynika z badania

Cieszymy się, że doceniasz to, co robimy!