Shikoni: Gjeneruesi i ri i videove ‘deepfake’ i Microsoft në veprim
Një sistem i ri gjenerues i inteligjencës artificiale të Microsoft-it ka nxjerrë në pah se sa e avancuar po bëhet teknologjia e falsifikimit të thellë – duke gjeneruar video bindëse nga një imazh i vetëm dhe një klip audio.
Mjeti merr një imazh dhe e kthen atë në një video realiste, së bashku me emocione dhe lëvizje bindëse si ngritja e vetullave.
Një demo tregon se Mona Lisa vjen në jetë dhe këndon Papparazzi të Lady Gaga-s – Microsoft thotë se sistemi nuk ishte i trajnuar në mënyrë specifike për të trajtuar audion e këndimit, por e bën këtë. Por aftësia për të gjeneruar video nga një skedar i vetëm imazhi dhe audio ka alarmuar disa ekspertë.
Microsoft nuk ka zbuluar ende se kur sistemi i AI do të lëshohet për publikun e gjerë. Yahoo foli me dy ekspertë të inteligjencës artificiale dhe privatësisë për rreziqet e kësaj lloj teknologjie.
Çfarë rëndësie ka kjo teknologji e re?
Sistemi VASA (i cili nënkupton ‘aftësi vizuale emocionale’) i lejon përdoruesit të tregojnë se ku po shikon personi i rremë dhe çfarë emocionesh po shfaq në ekran. Microsoft thotë se teknologjia hap rrugën për angazhimin ‘në kohë reale’ me avatarët realistë që flasin.
Microsoft thotë, ‘Modeli ynë premierë, VASA-1, është i aftë jo vetëm të prodhojë lëvizje buzësh që janë të sinkronizuara në mënyrë të shkëlqyer me audion, por gjithashtu të kapë një spektër të madh të nuancave të fytyrës dhe lëvizjeve natyrale të kokës që kontribuojnë në perceptimin e origjinalitetit dhe gjallërisë .’
Pse disa njerëz janë të shqetësuar?
Jo të gjithë janë të apasionuar pas sistemit të ri, me një blog që e përshkruan atë si një ‘makinë makthi të thellë’. Microsoft ka theksuar se sistemi është një demonstrim dhe thotë se aktualisht nuk ka plane për ta nxjerrë atë si produkt.
Por ndërsa VASA-1 përfaqëson një hap përpara në gjallërimin e njerëzve, teknologjia nuk është unike: audio start-up Eleven Labs u mundëson përdoruesve të krijojnë grupe audio tepër realiste të njerëzve, bazuar në vetëm 10 minuta audio.
Teknologjia e Eleven Labs u përdor për të krijuar një audio klip ‘të rrejshëm’ të Joe Biden duke ‘trajnuar’ një version të rremë në klipet audio të Presidentit të disponueshme publikisht dhe më pas duke dërguar një video të rreme audio të Bidenit që u bën thirrje njerëzve të mos votojnë. Incidenti, i cili pa një përdorues të ndaluar nga Eleven Labs, theksoi se si një teknologji e tillë mund të përdoret lehtësisht për të manipuluar ngjarje reale.
Në një tjetër incident, një punëtor në një firmë shumëkombëshe pagoi 25 milionë dollarë mashtruesve pas një videotelefonate me shumë anëtarë të tjerë të stafit, ku të gjithë ishin një falsifikim. Deepfakes po bëhen gjithnjë e më të zakonshme në internet, me një sondazh nga Prolific që zbuloi se 51% e të rriturve thanë se kishin hasur në video të falsifikuara në mediat sociale.
Simon Bain, CEO i OmniIndex, thotë, “Teknologjia Deepfake është në një mision për të prodhuar përmbajtje që nuk përmban të dhëna ose “artefakte të identifikueshme” për të treguar se është e rreme. Demoja e fundit e VASA-1 është zhvillimi më i fundit i tillë që ofron një hap të rëndësishëm drejt kësaj, dhe deklarata shoqëruese e Microsoft ‘Rreziku dhe konsideratat e përgjegjshme të AI’ sugjeron këtë shtysë për përsosmëri, duke thënë:
“Aktualisht, videot e krijuara nga kjo metodë përmbajnë ende objekte të identifikueshme dhe analiza numerike tregon se ka ende një boshllëk për të arritur autenticitetin e videove reale.”
“Personalisht, më duket shumë alarmante, pasi ne kemi nevojë për këto artefakte të identifikueshme për të parandaluar që falsifikimet e thella të shkaktojnë dëm të pariparueshëm.
Cilat janë shenjat sinjalizuese që po shikoni në një “deepfake”?
Shenjat e vogla si mospërputhjet në strukturën e lëkurës dhe dridhjet në lëvizjet e fytyrës mund t’ju lënë të kuptohen se jeni duke parë një falsifikim të thellë, thotë Bain. Por së shpejti, edhe ato mund të largohen, shpjegon ai.
Bain thotë: Vetëm këto mospërputhje të mundshme në strukturën e lëkurës dhe dridhjet e vogla në lëvizjet e fytyrës mund të na tregojnë vizualisht për vërtetësinë e një videoje. Në këtë mënyrë, ne e dimë se kur shikojmë politikanët të shkatërrojnë shanset e tyre për zgjedhjet e ardhshme, në fakt janë ata dhe jo një falsifikim i thellë i AI.
“Kjo shtron pyetjen: pse teknologjia e “deepfake” është e vendosur në dukje për të eliminuar këto dhe të dhëna të tjera vizuale në vend të sigurimit që ato të mbeten? Në fund të fundit, çfarë përfitimi mund të ketë një video e vërtetë e rreme dhe ‘e vërtetë’ përveçse të mashtrojë njerëzit? Sipas mendimit tim, një “deepfake” që është pothuajse e vërtetë, por që nuk mund të identifikohet, mund të ketë po aq përfitime sociale sa një që është e pamundur të identifikohet si false.’
Çfarë po bëjnë kompanitë e teknologjisë për këtë?
Njëzet nga kompanitë më të mëdha të teknologjisë në botë, duke përfshirë Meta, Google, Amazon, Microsoft dhe TikTok nënshkruan një marrëveshje vullnetare në fillim të këtij viti për të punuar së bashku për të ndaluar përhapjen e falsifikimit të thellë rreth zgjedhjeve.
Nick Clegg, president i çështjeve globale në Meta tha: “Me kaq shumë zgjedhje të mëdha që po zhvillohen këtë vit, është jetike që ne të bëjmë gjithçka që mundemi për të parandaluar që njerëzit të mashtrohen nga përmbajtjet e krijuara nga AI.
“Kjo punë është më e madhe se çdo kompani e vetme dhe do të kërkojë një përpjekje të madhe në të gjithë industrinë, qeverinë dhe shoqërinë civile.”
Por efekti më i gjerë i “deepfakes” është se së shpejti, askush nuk do të jetë në gjendje t’i besojë asgjëje në internet dhe kompanitë duhet të përdorin metoda të tjera për të ‘vleftësuar’ videot, thotë Jamie Boote, konsulent kryesor në Synopsys Software Integrity Group:
Boote tha, “Kërcënimi i paraqitur nga Deepfakes është se ato janë një mënyrë për të mashtruar njerëzit që të besojnë atë që shohin dhe dëgjojnë të transmetuar përmes kanaleve dixhitale. Më parë, ishte e vështirë për sulmuesit të falsifikonin zërin ose ngjashmërinë e dikujt, dhe akoma më e vështirë ta bënin këtë. me video dhe audio të drejtpërdrejtë, Tani AI e bën këtë të mundur në kohë reale dhe ne nuk mund ta besojmë më atë që shfaqet në ekran.
“Deepfakes hapin një rrugë tjetër sulmesh kundër përdoruesve njerëzorë të sistemeve të TI-së ose sistemeve të tjera jo-dixhitale si bursa. Kjo do të thotë që thirrjet video nga CEO ose njoftimet nga njerëzit e PR mund të falsifikohen për të manipuluar çmimet e aksioneve në sulme të jashtme ose përdoret nga spearphishers për të manipuluar punonjësit në zbulimin e informacionit, ndryshimin e cilësimeve të rrjetit ose lejet, ose shkarkimin dhe hapjen e skedarëve.
“Për t’u mbrojtur nga ky kërcënim, ne duhet të mësojmë të vërtetojmë se fytyra në ekran është në të vërtetë fytyra përpara kamerës së dërguesit dhe kjo mund të bëhet përmes kanaleve shtesë si një telefonatë në celularin e dërguesit, një mesazh nga një llogari e besuar, ose për njoftime publike, një njoftim për shtyp në një faqe publike të kontrolluar nga kompania.