
man programming in the dark
Pakiety Kodów AI Otwierają Drzwi dla Hakerów, Wynika z Badania
Kod generowany przez AI często zawiera fałszywe biblioteki oprogramowania, co stwarza nowe możliwości dla hakerów, aby wykorzystać łańcuchy dostaw i narazić użytkowników na różnych platformach programistycznych.
Spieszysz się? Oto najważniejsze fakty:
- Generatory kodu AI tworzą iluzoryczne, nieistniejące zależności oprogramowania.
- Znaleziono 440 000 zmyślonych pakietów w 576 000 próbkach kodu wygenerowanych przez AI.
- Modele open-source tworzą iluzje 4 razy częściej niż komercyjne.
Badania wskazują, że kod generowany przez narzędzia AI tworzy znaczne luki w zabezpieczeniach, które zagrażają łańcuchowi dostaw oprogramowania. Badania, o których po raz pierwszy poinformowało Ars Technica, pokazały, że duże modele językowe (LLM), które działają podobnie do systemów ChatGPT, generują fikcyjne zależności kodu, które hakerzy mogą potencjalnie wykorzystać do celów złośliwych.
Ars informuje, że naukowcy ocenili 16 powszechnie używanych modeli AI poprzez generowanie 576 000 próbek kodu. Analiza wykazała, że 440 000 odniesień do pakietów było zmyślonymi, ponieważ wskazywały na nieistniejące biblioteki kodów.
Istnienie tych wymyślonych zależności stwarza znaczne ryzyko dla bezpieczeństwa. Ars informuje, że atakujący mogą zidentyfikować powtarzające się sugestie AI dotyczące nazw pakietów, aby przesłać szkodliwe pakiety o tych nazwach. Atakujący przejmuje kontrolę nad systemem dewelopera, gdy ten, nieświadomie, instaluje szkodliwy kod.
„Gdy atakujący publikuje pakiet pod zmyśloną nazwą, zawierający złośliwy kod, polegają na modelu sugerującym tę nazwę nieświadomym użytkownikom” – wyjaśnił Joseph Spracklen, doktorant na Uniwersytecie Texasu w San Antonio i główny badacz, jak poinformował Ars.
„Jeśli użytkownik ufa wynikom LLM i instaluje pakiet bez dokładnej weryfikacji, ładunek atakującego, ukryty w złośliwym pakiecie, zostanie wykonany w systemie użytkownika” – dodał Spracklen.
Metoda ataku polega na oszukiwaniu oprogramowania, aby wybrało niebezpieczną wersję pakietu zamiast zamierzonej poprawnej wersji, jak donosi Ars. Atak polegający na pomyleniu zależności dotknął główne firmy technologiczne, w tym Apple, Microsoft i Tesla, podczas wcześniejszych testów.
Badacze odkryli, że modele open source, takie jak CodeLlama, generują więcej fałszywych pakietów niż komercyjne modele. Modele otwarte generowały fałszywe odniesienia do kodu z częstotliwością 22%, podczas gdy modele komercyjne generowały halucynacje z częstotliwością 5% lub mniej. Język programowania JavaScript doświadczył więcej halucynacji niż Python, ponieważ działa w większym i bardziej skomplikowanym ekosystemie kodu.
Według badania, nie są to jednorazowe błędy. Badanie wykazało, że wiele fałszywych paczek pojawiało się wielokrotnie w różnych testach, co czyni je bardziej niebezpiecznymi, ponieważ mogą być łatwiej wycelowane przez atakujących.
Ars wyjaśnia, że atakujący mogą wykorzystać powtarzające się nazwy fałszywych paczek, przesyłając malware pod tymi nazwami, w nadziei, że deweloperzy nieświadomie je zainstalują.