Tak się stało, że Kasia Michalak zadzwoniła do mnie z propozycją, żeby wśród przeróżnych recenzji, które się tutaj pojawiają, pojawiły się również moje, wzbogacone o wersję audio. Być może zmywając, sprzątając, idąc na zakupy ze słuchawkami na uszach – będzie Wam po prostu wygodniej przyswoić to, co mam do powiedzenia. Ustaliliśmy, że będą to co-dwutygodniowe opowieści o rozmaitych dźwiękowych formach. Zastrzegałem przy okazji poznańskiego spotkania z Audionomią, że świat klasycznego, polsko-radyjnego reportażu świadomie nie jest przeze mnie do końca zgłębiony. Lub inaczej – był zawsze obecny w tle, od początku mojej radiowej drogi jeszcze w Radiu Łódź, lecz osoba która najintensywniej zapoznawała mnie z wszystkimi aspektami i tajnikami tego zajęcia – zaraziła mnie także postrzeganiem tego typu formy jako niedzisiejszej i nie do końca najlepiej przez wszystkich przyswajanej. Choć to na pewno temat na osobną dyskusję.
Tyle tytułem wstępu – w ramach tych recenzji – będę sięgał po różne formy, których wspólnym mianownikiem będzie po prostu dźwiękowa historia. Tam, gdzie oprócz gadających głów – w reportażu, podkaście, słuchowisku, dokumentalnym serialu audio – jest coś więcej. Może Was także zachęci to do przemyśleń? Czy autor w sposób przekonujący (lub nie do końca) sięgnął po konkretne rozwiązania?
O czym jest TEN reportaż? O sztucznej inteligencji. Zjawisku, z którym trudno było nie mieć mniejszej lub większej styczności w minionym roku. Albo jako świadomie wykorzystywanym narzędziem, albo czymś, za pomocą czego zostaliście oszukani lub próbowano Was oszukać. Może ktoś z Was nie zdawał sobie sprawy, że głos, który słyszy po drugiej stronie słuchawki (całkiem przytomnie odpowiadający na pytania, mówiący o kredytach lub panelach fotowoltaicznych), nie należy do żadnej konkretnej osoby. A na pewno nie jest to osoba rozmawiająca z nami na żywo, tylko jakiś szatański algorytm.
Na pewno ciekawe jest to jak bardzo rzeczywistość zbliżyła się do mojego ulubionego netfliksowego serialu Black Mirror. Nie należę do osób, które namiętnie weekendami oglądają całe sezony, ale odsyłam Państwa by sprawdzić o czym mowa w tej historii. Zwłaszcza, jeśli lubicie jak rozwój technologii, która czyha na nas tuż za rogiem, wywołuje raczej dreszczyk niepokoju niż podekscytowania. Czy już za chwilę w ogóle nie będziemy mieć pewności co do kogoś, kogo słyszymy po drugiej stronie?
Zapewniam państwa, że wersja audio tego tekstu nie powstała przy użyciu narzędzia klonowania głosu:)
Żyjemy w czasach, kiedy studenci sięgają po tego typu rozwiązania: żeby lektor czytał im slajdy w ramach prezentacji. Słyszałem, że dzieje się to przy aprobacie prowadzących. Oczywiście to nie miejsce na debatę na temat tego, czy cała sztuczna inteligencja w całości opiera się na intelektualnej kradzieży. (Niedawno New York Times pozwał twórców ChatGPT na grube setki tysięcy dolarów, ponieważ odpowiedzi udzielane przez bota, mają być niekiedy zlepkiem artykułów z tego renomowanego tytułu). Nie znajdziemy teraz odpowiedzi na pytanie o “moralność” całej tej technologii i o to czy przepisy prawa za nią nadążą (obawiam się, że nie). Debata trwa. Usłyszałem ciekawą refleksję, że to dlatego prezydent Ukrainy Wołodymyr Zełeński niemal codziennie publikuje w mediach społecznościowych nagranie, na którym opisuje bieżącą sytuację wojenną i dyplomatyczną. W innym razie, gdyby zniknął choć na tydzień, Rosjanie mogliby wrzucić do sieci deepfake’owe nagranie w jakości 4K; a jego treści moglibyśmy się tylko domyślać. Z resztą różnego rodzaju ataków z wykorzystaniem AI tak czy siak przybywa.
Więc jak wciśnięta w nieco archaiczną formę reportażu radiowego brzmi ta arcyaktualna dyskusja?
To reportaż “Jestem wygenerowany” dla Radia Wrocław z listopada 2023 roku. Świeżynka. Autorem jest Krzysztof Majewski. “Sztuczna inteligencja ma coraz większe możliwości. W dodatku jej praca jest coraz lepsza, często tak wysokiej jakości, że trudnej do odróżnienia od pracy człowieka.” Tak brzmi wstępniak na stronie rozgłośni. Opowieść ma ponad dwanaście minut; nie trzeba rezerwować sobie bardzo długiego momentu, by się w nią wgryźć.
Jak to wszystko jest opowiedziane? Oczywiście autor sięga po TO narzędzie. Bardzo wdzięczne do tworzenia wielowarstwowej dźwiękowej historii. Słyszymy tam wspomniane wygenerowane głosy, boty. Oprócz ekspertów z uczelni, odpowiadających na filozoficzno-etyczno pytania. Sztuczne głosy należą do kobiet i mężczyzn.
Dlaczego to żaden spoiler? Bo z mojej perspektywy można dosyć szybko wychwycić, że nie należą one do żadnej fizycznej osoby. Tym bardziej, że w tej historii wypowiadają się wyłącznie w jednym, foliarskim charakterze. To klasyczne komentarze na temat rzekomej szkodliwości sieci 5G i rozmaite pochodne. (Jeżeli ktoś z Państwa uważa w tym miejscu, że to ja mam klapki na oczach – bardzo mi przykro. Uważam, że foliowe czapeczki ,bo do tego się te rozwinięte teorie sprowadzają, słusznie zostały przez część internetowych baniek określone właśnie mianem foliarstwa).
Mamy więc wymieszane wypowiedzi dotyczące tych “zagrożeń” i ekspertów z krwi i kości. To dość ciekawe, że fragmenty pracowników uczelni są nawet nieco gorszej technicznej jakości niż “wypowiedzi” botów. Być może to kwestia komunikatora, przez który były nagrywane prawdziwe rozmowy, a może świadomy zabieg, żeby spróbować zatrzeć różnice.
To oczywiście robi wrażenie, ale każdy odbiorca dokona samodzielnej oceny. Każde z nas ma różne doświadczenia z głosami wygenerowanymi przez sztuczną inteligencję. Co do wypowiedzi ekspertów – to na przykład akademickie diagnozy dotyczące konstruowania fake newsów. (Oczywiście fejki nie mogą być oderwane od rzeczywistości; muszą bazować na logicznych podstawach, a dopiero potem ich twórcy i (ich wyobraźnia) – coraz bardziej odlatują. Albo – stają się coraz bardziej przekonujący, bo jak wiemy – teorie spiskowe mają się w dobie internetu lepiej niż kiedykolwiek).
W ciągu tych dwunastu minut mamy też choćby zręcznie oddany efekt przebodźcowania, czyli nałożenie na siebie wielu głosów jednocześnie. Tego typu zabiegi też urozmaicają reportaż. Po foliarskiej papce na początek, mamy coraz pełniejsze wypowiedzi ekspertów.
Na sam koniec wszystkie głosy przedstawiają nam się, mówiąc “wszystkie nasze wypowiedzi stworzyła sztuczna inteligencja” albo: “jestem człowiekiem, żyję”. Możemy zorientować się już wcześniej, że coś jest nie tak, bo nie wszystkie te zdania są poprawne gramatycznie; boty mają dość grubo ciosaną dykcję.
Na pewno grono słuchaczy Radia Wrocław – zwłaszcza osoby będące “w targecie” cyberprzestępców – mogli dzięki tej historii przynajmniej nabrać świadomości co do skali zagrożenia. Na pewno nie jedna słuchająca tego osoba może poczuć się swobodniej, łatwo stwierdzając, który głos był prawdziwy, a który nie.
Warto jednak wiedzieć, że dostępne powszechnie (także w listopadzie minionego roku) narzędzia do klonowania głosu są znacznie lepsze niż te zastosowane w opowieści. Autor mógł pokusić się o wpuszczenie szerszej grupy odbiorców w znacznie bardziej przekonującą pułapkę. Na przykład pobierając próbki głosów od ekspertów i generując otrzymane od nich tekstowe odpowiedzi jako dźwięki. Różnica mogłaby być niemal niemożliwa do wychwycenia. Albo stworzyć kontrast między tymi koślawymi botami i doskonalszymi narzędziami AI.
Pytanie czy wówczas nie zostalibyśmy wyłącznie z przerażającymi wnioskami? I już w każdej minucie, godzinie, po wysłuchaniu tego typu historii, zadawalibyśmy sobie pytanie czy usłyszany na tej i innej antenie głos – należy do żywej osoby, czy też nie?