Przeczytałam dość zadziwiającą wiadomość, że sztuczna inteligencja może być stronnicza. Organizacja przeprowadzająca testy SAT przeanalizowała ponad 13 000 esejów uczniów i okazało się że ocena ich przez AI była stronnicza. W sumie nie jest to dziwne. Kiedy ChatGPT został udostępniony publicznie w listopadzie 2022 r., ostrzegano, że może być nacechowany uprzedzeniami rasowymi. ChatGPT został stworzony poprzez zebranie 300 miliardów słów z książek, artykułów i tekstów internetowych, które częściowo zawierają rasistowskie opinie i odzwierciedlają ukryte uprzedzenia autorów. Dlatego AI może wygenerować stronnicze dane i porady.
Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.
Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.
GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2,8 , a eksperci -3,7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4,3, podczas gdy GPT-4o przyznało im tylko 3,2 , czyli mniej więcej 1,1 punktu mniej.
Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0,9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.
Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować.
To jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów.
Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.
Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.
Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważaći, że eseje były niezwiązane z tematem.
Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 r. i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyccy Amerykanie w teście czytania ze zrozumieniem.
Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.
Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.
Korzystałam z artykułu JILL BARSHAY (8 lipca 2024 r.)
https://hechingerreport.org/proof-points-asian-american-ai-bias/