Błąd ortograficzny może zmienić Twoją medyczną radę od AI, ostrzega badanie

Image by macrovector, from Freepik

Błąd ortograficzny może zmienić Twoją medyczną radę od AI, ostrzega badanie

Przeczytasz w: 4 min

Nowe badania pokazują, że AI wykorzystywane w służbie zdrowia zmienia zalecenia medyczne na podstawie literówek, slangu i płci, co budzi pilne obawy dotyczące sprawiedliwości algorytmicznej.

Spieszysz się? Oto najważniejsze fakty:

  • Drobne błędy w wiadomościach obniżyły dokładność AI nawet o 9%.
  • Kobiety-pacjentki otrzymywały gorsze porady o 7% częściej niż pacjenci-mężczyźni.
  • AI zmieniało rekomendacje na podstawie tonu, slangu i zaimków.

Nowe badanie ujawnia, że duże modele językowe (LLM) stosowane w służbie zdrowia mogą być pod wpływem pozornie nieistotnych szczegółów w wiadomościach od pacjentów.

Może to skutkować niespójnymi, a nawet stronniczymi zaleceniami dotyczącymi leczenia. Prezentowane na konferencji ACM na temat Sprawiedliwości, Odpowiedzialności i Przejrzystości (FAccT ’25) w 2025 roku, badania budzą poważne obawy dotyczące wiarygodności narzędzi AI w podejmowaniu decyzji medycznych.

Badanie wykazało, że nawet drobne modyfikacje w sposobie, w jaki pacjent opisuje swoje objawy, takie jak literówki, dodane spacje, czy zmiana tonu, mogą znacznie zmienić sugestie leczenia proponowane przez AI.

Na przykład, kiedy pacjenci używali niepewnego języka, jak „Myślę, że mogę mieć ból głowy”, AI była o 7-9% bardziej skłonna do sugerowania samoopieki zamiast profesjonalnej pomocy medycznej, nawet w przypadkach, gdy dalsza ocena była wymagana.

Te zmiany nie były tylko teoretyczne. Badacze używali AI do symulowania tysięcy notatek pacjentów napisanych w różnych tonach i formatach, naśladując ludzi z ograniczoną znajomością angielskiego, słabymi umiejętnościami pisania, lub emocjonalnym językiem.

Wiadomości zawierały również neutralne pod względem płci zaimki oraz stylizowane pisanie, pokazując, jak sposób komunikacji może wpływać na diagnozę postawioną przez AI.

Wydobyła się również kwestia uprzedzeń związanych z płcią. Pacjentki były o 7% bardziej narażone na otrzymanie błędnych porad dotyczących samodzielnego zarządzania swoim stanem zdrowia, gdy wprowadzano niekliniczne wskazówki językowe.

Kolejne testy wykazały, że modele AI były bardziej skłonne niż lekarze do zmiany propozycji leczenia na podstawie postrzeganej płci lub stylu komunikacji, nawet gdy objawy kliniczne pozostawały takie same.

Wydajność tych modeli pogarszała się w bardziej realistycznych, rozmownych ustawieniach czatu. Dokładność diagnozy spadła o ponad 7%, gdy do tych interakcji między AI a pacjentem wprowadzono drobne zmiany tekstowe.

To jest ważne, ponieważ AI jest coraz częściej wykorzystywane do diagnozowania chorób, odpowiadania na pytania pacjentów oraz tworzenia notatek klinicznych. Jednak badanie pokazuje, że sposób, w jaki napisana jest wiadomość, jej ton, błędy czy struktura, mogą zniekształcać rozumowanie AI.

Mogłoby to prowadzić do niedostatecznego leczenia grup narażonych, takich jak kobiety, osoby niebinarne, jednostki z lękiem zdrowotnym, osoby nie mówiące płynnie po angielsku oraz osoby mniej obeznane z komunikacją cyfrową.

„Podstępne uprzedzenia mogą zmienić ton i treść porad udzielanych przez AI, co może prowadzić do subtelnych, ale istotnych różnic,” powiedział Karandeep Singh z University of California, San Diego, który nie był zaangażowany w badania, jak podaje New Scientist.

Główna badaczka, Abinitha Gourabathina, podkreśla: „Nasze wyniki sugerują, że modele AI nie przetwarzają tylko medycznych faktów – są one również pod wpływem sposobu prezentacji informacji. Mogłoby to pogłębić nierówności w opiece zdrowotnej, jeśli nie zostanie to uwzględnione przed wdrożeniem.”

Badacze przetestowali wiele wiodących modeli AI, w tym GPT-4 od OpenAI, modele Llama-3 od Meta oraz specyficzny dla sektora opieki zdrowotnej model Palmyra-Med od Writer. Wszystkie wykazały tę samą słabość: zmiany formatu i tonu prowadziły do mniej wiarygodnych porad. Pomimo tego, firmy takie jak Writer twierdzą, że ich modele nie powinny być używane do podejmowania decyzji klinicznych bez udziału człowieka.

Eksperci ostrzegają, że w miarę jak generatywne AI staje się coraz bardziej powszechne w dokumentacji medycznej i usługach dla pacjentów, pilnie potrzebne są lepsze systemy oceny.

Aby zapobiec szkodom, zespół badawczy apeluje o bardziej rygorystyczne testowanie narzędzi medycznych opartych na AI, aby zapewnić, że pozostaną sprawiedliwe i dokładne, niezależnie od tego, jak pacjenci wyrażają swoje obawy. Udostępnili publicznie swoją ramę oceny uprzedzeń, aby pomóc programistom ulepszyć systemy AI w służbie zdrowia.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
5.00 Na podstawie głosów 1 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię