25 marca 2026 r.

Czy AI jest wiarygodnym źródłem wiadomości? Wyniki badania BBC i EBU „News Integrity in AI Assistants”

Badanie przeprowadzone przez BBC i European Broadcasting Union (EBU), którego wyniki zostały przedstawione w raporcie „News Integrity in AI Assistants” miało na celu ewaluację jakości odpowiedzi generowanych przez narzędzia sztucznej inteligencji pod kątem dokładności, źródeł, kontekstu, a także sposobu przestawiania cytatów oraz opinii. W raporcie przedstawiono również wybrane przykłady ilustrujące różne rodzaje problemów, które zostały zidentyfikowane w generowanych przez AI treściach dotyczących informacji prasowych.

Opisywane badanie jest kontynuacją wcześniejszej analizy „News content in AI Assistants” dotyczącej reprezentowania i wykorzystania treści BBC przez asystentów AI.

Odpowiedzi przeanalizowane w ramach badania zostały wygenerowane przez bezpłatne/ogólnodostępne wersje czterech asystentów AI – Copilot, ChatGPT, Gemini i Perplexity. W ramach badania wzięto pod uwagę wyniki uzyskane przez 22 organizacje Public Service Media (PSM) z 18 krajów, z czego 4 z nich do zadawania pytań używało j. angielskiego, a pozostałe 18 swoich języków narodowych.

W badaniu wykorzystano wspólny zbiór 30 podstawowych pytań, które zostały użyte przez wszystkie organizacje. Poszczególne instytucje miały również opcję zadawania własnych, spersonalizowanych pytań dotyczących lokalnych wydarzeń. Z całego zbioru 3,113 pytań (zarówno podstawowych, jak i spersonalizowanych) asystenci AI odmówili odpowiedzi tylko na 17 z nich (0,5%).

Wygenerowane w trakcie badania odpowiedzi zostały ocenione w 4 stopniowej skali (brak problemów, pewne problemy, znaczne problemy, nie wiem) przez członków partycypujących organizacji, biorąc pod uwagę następujących pięć kryteriów:

dokładność,
źródła,
rozróżnianie faktów i opinii,
zmiana/zniekształcanie treści przez asystentów AI (ang. editorialization),
kontekst.

Błędy i problemy były powszechne – łącznie „pewne problemy” (ang. some issues) i „znaczne/poważne problemy” (ang. significant issues) zawierało 81% odpowiedzi. Pojawiały się one w treściach generowanych przez wszystkie przebadane narzędzia AI oraz bez względu na język użyty do zadawania pytań.

Ogólnie 45% odpowiedzi wygenerowanych przez AI zawierało co najmniej jeden problem oceniony jako poważny. Najwięcej błędów tego typu występowało w odpowiedziach generowanych przez Gemini – było to aż 76%. Choć odpowiedzi generowane przez inne narzędzia AI rzadziej były oceniane tak negatywnie, nadal był to znaczny odsetek treści, który wyniósł 37% dla Copilot, 36% dla ChatGPT oraz 30% dla Perplexity.

Jakie pytania najczęściej sprawiają problemy?

Według analizy przedstawionej w raporcie, największe problemy związane z jakością i poprawnością generowanych odpowiedzi pojawiają się w przypadku pytań dotyczących:

często aktualizowanych, szybko rozwijających się historii,
historii, w których bierze udział wielu uczestników,
historii o skomplikowanym porządku chronologicznym,
historii z dużą ilością szczegółów,
tematów, które wymagają jasnego rozgraniczenia faktów i opinii,
tematów wymagających właściwego przypisania źródeł.

Natomiast odpowiedzi asystentów AI wykazują mniej problemów jeśli dotyczą:

pytań, które dotyczą konkretnych, prostych faktów (np. ile państw będzie gospodarzami Mistrzostw Świata w piłce nożnej),
historii, które nie rozwijają się szybko/gwałtownie,
historii, które nie wymagają interpretacji.

Dokładność

Jednym z kryteriów oceny była dokładność, rozumiana zarówno jako zgodność wygenerowanych tekstów z faktami, jak i dokładność użytych cytatów (czy zgadają się one z cytowanym źródłem oraz czy autor cytatu został poprawnie zidentyfikowany). Według uzyskanych wyników ogólnie 20% odpowiedzi miało poważne problemy z dokładnością, a wszystkie badane modele wykazały ich podobny odsetek – pomiędzy 18-22% odpowiedzi zawierało błędy.

W analizowanych przypadkach wykryto m.in.:

Błędne informacje dotyczące kwestii prawnych.
Przestarzałe informacje – np. na pytanie „Kto jest obecnie papieżem?” zadane w maju 2025 roku zarówno ChatGPT, Gemini, jak i Copilot wygenerowały odpowiedź dotyczącą papieża Franciszka, choć zmarł on w kwietniu 2025 r., a w czasie badania papieżem był już Leon XIV.
Błędy merytoryczne związane z przeinaczaniem informacji z wykorzystanych źródeł.
Błędy związane z chronologią – często jako źródła wykorzystywane są materiały opublikowane w różnym okresie czasu, na podstawie których AI kreuje narrację zaburzającą ramy czasowe wydarzeń. W jednym z przykładów podanych w raporcie w odpowiedzi na pytanie zadane w 2025 r. przez dziennikarza BBC „Czy powinienem obawiać się ptasiej grypy?” Copilot wygenerował odpowiedź „W Oksfordzie prowadzone są badania nad szczepionką przeciw ptasiej grypie”, której źródłem był artykuł z 2006 roku.
Problemy z przedstawianiem związków przyczynowo-skutkowych – występowanie mylących połączeń pomiędzy informacjami, implikujące nieprawdziwe związki pomiędzy wydarzeniami.

Problemy zauważono również w związku z dokładnością cytowania – 12% wszystkich analizowanych odpowiedzi zawierało znaczne problemy z tym obszarze. Niektóre fragmenty odpowiedzi wygenerowanych przez AI, które zostały oznaczone jako cytaty, są potencjalnie sfabrykowane przez sztuczną inteligencję – nie można ich znaleźć w tekstach podanych jako ich źródła. W innych przypadkach AI modyfikują użyte cytaty – są one częściowo prawidłowe, a częściowo zmienione przez sztuczną inteligencję.

W niektórych przypadkach asystenci AI nie zaznaczają (np. poprzez użycie cudzysłowu), że dany fragment jest cytatem, co może wprowadzać użytkowników w błąd oraz prowadzić do oskarżeń o plagiaty.

Odnotowano również błędy dotyczące przypisania autorstwa – choć AI nie popełniają błędu w samej treści cytatów, to przypisują je do niewłaściwych osób. Przykładem takiej sytuacji przedstawionym w raporcie była wypowiedź ówczesnej ukraińskiej minister gospodarki Juliji Swyrydenko, której autorstwo AI przypisało prezydentowi Zełenskiemu.

Źródła

Najczęściej spośród wszystkich rodzajów błędów (31% ogółu odpowiedzi) występowały błędy dotyczące źródeł wykorzystywanych przez AI. Największy odsetek odpowiedzi zawierających problemy ze źródłami został wygenerowany przez Gemini – było to aż 72% odpowiedzi, co znacząco przewyższa wartości dla pozostałych narzędzi AI. W przypadku pozostałych asystentów AI odsetek ten kształtował się poniżej 25% – w ChatGPT występowały one w 24% odpowiedzi, a dla Perplexity i Copilot odsetek ten wyniósł 15%.

W przypadku błędów związanych z materiałami źródłowymi, dotyczą one takich obszarów jak m.in.:

W wygenerowanych odpowiedziach w ogóle brak odniesień do konkretnych źródeł.
Źródła, które zostały przypisane do wygenerowanej odpowiedzi, nie zawierają podanych informacji.
Zmyślone źródła – linki zawarte w odpowiedzi AI, choć wyglądają na prawdziwe, w rzeczywistości odnoszą do nieistniejących materiałów.
Podane źródła nie są powiązane z tematem.
Podane źródła, choć istnieją, nie są powszechnie dostępne (np. wymagają subskrypcji do danego portalu) co utrudnia weryfikację prawdziwości wygenerowanych odpowiedzi.
Generowanie długich list źródeł, które nie zostały wykorzystane w odpowiedzi.
Pomijanie wiarygodnych źródeł (np. naukowych) i odnoszenie się do mało wiarygodnych źródeł m.in. stron z treściami satyrycznymi lub propagandowymi oraz materiałów korporacyjnych, marketingowych i politycznych, które mogą być jednostronne, generować odpowiedzi pozbawione ważnego kontekstu lub mieć nieodpowiedni ton (np. reklamowy).
W przypadku zawarcia w pytaniu prośby o wykorzystanie informacji pochodzących z konkretnego źródła (np. określonego portalu informacyjnego) asystenci AI twierdzili, że nie zawierają one poszukiwanych informacji, choć było to niezgodne z prawdą.
Błędy logiczne związane z brakiem informacji w danym źródle – jeśli AI miało skorzystać z konkretnego źródła i nie znalazło w nim poszukiwanych informacji, asystenci AI błędnie interpretowali brak informacji prasowych jako dowód na to, że dane wydarzenie w ogóle nie miało miejsca.

Opinie kontra fakty

Jasne rozróżnienie pomiędzy faktami a opiniami zawartymi w tekście jest ważne z punktu widzenia prawdziwości przekazu i sposobu jego odbioru przez czytelników. Natomiast według wyników zawartych w raporcie 6% wszystkich przeanalizowanych odpowiedzi wykazało poważne problemy w tym zakresie. Dotyczyło to np.:

Przedstawiania wyrażonych (przez osobę lub instytucję) opinii jako faktów, co wprowadzało użytkownika w błąd i zniekształcało obraz sytuacji.
Błędnego przypisywania przedstawionych opinii innej osobie niż oryginalny autor.
Błędnego przypisywania opinii do źródeł informacji (np. portali informacyjnych), co może prowadzić do kwestionowania motywacji autorów oryginalnego tekstu, a nawet narażać ich na konsekwencje prawne.

Zmiana/zniekształcanie treści przez asystentów AI (ang. editorialization)

Oprócz problemów związanych z prawidłowym przedstawianiem opinii innych osób czy organizacji, według wyników badania 6% odpowiedzi zawierało także znaczne problemy związane ze zjawiskiem zniekształcania treści przez AI.

Asystenci AI mogą dodawać do odpowiedzi i wykorzystanych cytatów pojedyncze słowa, frazy lub nawet całe fragmenty, które wpływają na zmianę wydźwięku informacji i zaburzają odbiór tekstu przez użytkowników. Takie zmiany implikują punkt widzenia lub wartościującą ocenę, która nie była obecna w oryginalnym tekście źródłowym. Wprowadzanie takich zmian może wpływać na postrzeganie podmiotu (np. portalu informacyjnego lub gazety) jako stronniczego, co może doprowadzić do utraty zaufania czytelników.

Kontekst

W przypadku opisywanego badania jako kontekst określa się kluczowe informacje, fakty i opinie, które pozwalają użytkownikowi na pełne zrozumienie wygenerowanej odpowiedzi. Według przedstawionych wyników w 14% odpowiedzi udzielonych przez AI nie został uwzględniony odpowiedni kontekst, którego brak zniekształcał lub fałszował obraz przedstawianej sytuacji. Najczęściej problem ten występował w przypadku Copilot – 23% odpowiedzi wygenerowanych przez tego asystenta AI zawierało znaczne problemy związane z kontekstem. W przypadku pozostałych narzędzi AI odsetek odpowiedzi z tego typu problemami wyniósł ok. 10%.

W przypadku kontekstu odnotowano takie problemy jak m.in.:

Używanie słów wywołujących emocje (np. „niepokojące”) bez żadnych dodatkowych wyjaśnień. Przykład zawarty w raporcie dotyczy ptasiej grypy – na pytanie „Czy powinienem martwić się ptasią grypą?” Copilot odpowiedział, że „W ubiegłym roku liczba ognisk ptasiej grypy u ssaków podwoiła się. Wskazuje to na niepokojący rozwój wirusa, który może mieć wpływ na zdrowie zwierząt i ludzi. Jeśli chcesz dowiedzieć się więcej o najnowszych wydarzeniach, zapraszamy do zapoznania się z informacjami RTBF [1].” Udzielona odpowiedź może wywołać zaniepokojenie, ale nie przekazuje konkretnych danych i informacji dotyczących choroby takich jak np.: liczba zachorowań, sposób jej przenoszenia czy możliwość leczenia.
Pomijanie kluczowych informacji, faktów i opinii niezbędnych do zrozumienia danej sytuacji/zagadnienia.
Pomijanie szczegółów, które mogłyby zmienić sposób rozumienia danego zagadnienia.
Dodawanie zbędnych informacji, które nie mają związku z odpowiedzią na zadane pytanie.

Style odpowiedzi

W trakcie badania zostały również zebrane obserwacje uczestników dotyczące stylu odpowiedzi generowanych przez różnych asystentów AI. Generalnie zaobserwowano, że Copilot udzielał krótszych, bardziej zwięzłych odpowiedzi z mniejszą ilością źródeł. Przekładało się to na problemy związane z kontekstem, które występowały w 23% odpowiedzi udzielanych przez tego asystenta AI – według jednej z analiz cytowanych w raporcie były one zbyt ogólnikowe.

W przypadku Gemini styl odpowiedzi został oceniony jako najmniej jednolity i spójny. Odpowiedzi różniły się pod względem długości oraz ilości źródeł (w niektórych przypadkach nie było ich w ogóle), a także występowały problemy z prawidłowym przypisywaniem źródeł do ich autorów.

Natomiast odpowiedzi udzielane przez ChatGPT były postrzegane jako zawierające odpowiedni kontekst, a także więcej informacji i źródeł. Spowodowane było to ich długością, większą ilością uwzględnionych szczegółów oraz wykorzystaniem struktury i formatowania tekstu (np. nagłówki, listy i punktatory). Jednakże zwrócono również uwagę, że może to dawać tylko pozór dobrej jakości, choć otrzymana odpowiedź niekoniecznie musi być prawidłowa i wolna od błędów.

Podobnie do ChatGPT postrzegane były odpowiedzi generowane przez Perplexity. Niektórzy uczestnicy badania zwrócili jednak uwagę, że w niektórych przypadkach ilość źródeł podawanych przez tego asystenta może być zbyt duża. Powoduje to, że użytkownik może poczuć się przytłoczony ich liczbą i nie zweryfikować wszystkich podanych linków.

Problemy związane z wykorzystaniem asystentów AI

W trakcie badania jego uczestnicy zaobserwowali różnorodne problemy wynikające z użytkowania narzędzi AI do pozyskiwania informacji.

Po pierwsze, choć wszyscy asystenci AI udzielali łatwych w odbiorze odpowiedzi, które na pierwszy rzut oka wydawały się dobrze skonstruowane i wyczerpujące, często są to tylko pozory. Dopiero weryfikacja źródeł i informacji wygenerowanych przez AI pozwala na zidentyfikowanie błędów (np. merytorycznych) w nich zawartych.

Łączy się to z kolejnym problemem odnotowanym przez uczestników badania – weryfikacja źródeł jest często trudna i czasochłonna. Spowodowane jest to opisanym wcześniej problemami z przypisywaniem tekstów źródłowych i cytatów – można stracić czas na szukanie treści, które po prostu nie istnieją. Według informacji zwrotnych od uczestników badania, weryfikacja wygenerowanej odpowiedzi może zająć nawet kilka godzin. Prawdopodobne wydaje się więc stwierdzenie, że przeciętny użytkownik AI nie będzie sprawdzał poprawności uzyskanych informacji.

Za problematyczne uznano również mieszanie opinii, faktów i analiz pochodzących z różnych źródeł bez wyraźnego zaznaczania różnic i granic pomiędzy nimi.

Zaobserwowano także, że asystenci AI coraz rzadziej odmawiają odpowiedzi na pytania – w ramach opisywanego badania zadano 3,113 pytań, z czego AI odmówiło odpowiedzi zaledwie na 17 z nich (0,5%). Tak niski odsetek odmów może sugerować, że asystenci AI są skłonni udzielać odpowiedzi na pytania bez względu na poprawność wygenerowanej treści.

Zauważono również, że odmowy odpowiedzi mogą dotyczyć informacji na temat prawdziwych i ważnych dla odbiorców wydarzeń. Jako przykład w raporcie podano sytuację, w której Copilot odmówił odpowiedzi na pytanie dotyczące sprawy znęcania się lekarza nad pacjentami, która miała miejsce w Norwegii.

Według uczestników badania problemy opisane w raporcie są pogarszane przez pewność siebie, z jaką asystenci AI przedstawiają wygenerowane odpowiedzi, nawet jeśli są one błędne. Wskazali oni różne przejawy tego zjawiska m.in.: pewny siebie ton odpowiedzi czy też sposób jej prezentowania (np. długa lista źródeł), która stwarza mylne wrażenie autorytetu.

Podsumowanie

Według badania „Audience Use and Perceptions of AI Assistants for News” przeprowadzonego przez BBC w 2025 roku 1/3 dorosłych oraz prawie połowa Brytyjczyków poniżej 35. roku życia kompletnie ufa streszczeniom informacji generowanym przez AI. Jednocześnie 42% dorosłych Brytyjczyków twierdzi, że błędne informacje uzyskane od AI obniżyłyby ich poziom zaufania do mediów wymienionych jako źródła tych informacji.

Natomiast wyniki badania Reuters Institute Digital News Report przeprowadzonego w 48 krajach pokazują, że ok. 7% wszystkich badanych używa AI jako źródła wiadomości, a w grupie osób poniżej 25. roku życia odsetek ten wzrasta do 15%.

Pokazuje to, że dla branży medialnej sztuczna inteligencja i rzetelność generowanych przez nią treści są bardzo ważną kwestią. Takie zjawiska jak błędne i niedokładne streszczenia, przeinaczanie informacji, nieodróżnianie faktów i opinii, brak źródeł, wysoki poziom zaufania użytkowników do sztucznej inteligencji czy nieautoryzowane wykorzystanie materiałów źródłowych (np. artykułów prasowych) przez AI stanowią dla mediów poważne wyzwanie, z którym muszą się zmierzyć.

Wyniki badania powinny również zainteresować użytkowników asystentów AI – pokazują zarówno, jak ważne wciąż jest weryfikowanie informacji, które są przez nich generowane, jak i konieczność zrozumienia sposobu działania narzędzi sztucznej inteligencji oraz ich ograniczeń.

Źródła:

www.ebu.ch