„MONA LISA“ OŽÍVÁ V POČÍTAČOVĚ GENEROVANÉM „ŽIVÉM PORTRÉTU“ | CHYTRÉ ZPRÁVY KOVÁŘ - INTELIGENTNÍ ZPRÁVY, UMĚNÍ A KULTURA INTELIGENTNÍCH ZPRÁV, NÁPADY A INOVACE INTELIGENTNÍCH ZPRÁV

Série Harryho Pottera si svět zvykl na myšlenku živých portrétů s mluvícími obrazy a pohyblivými fotografiemi. Ale minulý týden, když začal „živý portrét“ vytvořený umělou inteligencí Mona Lisa Leonarda da Vinciho dělat kola na webu, bylo mnoho lidí vyděšeno, když slavný portrét pohnul rty a rozhlédl se kolem.

Animovaný portrét Lisy Gherardini byl jedním z několika nových „modelů mluvících hlav“ - běžně známých jako „hluboké padělky“ - vytvořených vědci z AI centra Samsung v Moskvě a Ústavu vědy a techniky Skolkovo. Pomocí několika referenčních rámečků nebo dokonce jediného snímku vědci také vytvořili hluboké padělky celebrit, jako je Oprah, oživili jednotlivé snímky Marilyn Monroe a Albert Einstein a vytvořili nové výrazy pro slavné obrázky, jako je Vermeerova dívka s perlou .

Vědci zveřejnili svou metodu, kterou nazývají „pár výstřelů“, na YouTube a v novinách, které ještě musí být recenzovány na repozitáři předtisků arXiv.org. Zatímco detaily jsou dost technické, Mindy Weisberger na LiveScience hlásí, že k produkci živých portrétů se umělou inteligencí zvanou konvoluční neuronová síť cvičí sama analýzou referenčních obrázků. Poté aplikuje pohyby obličeje ze série rámečků na statický obraz, jako je Mona Lisa . Čím více úhlů a referenčních obrázků má, tím lepší je živý portrét. Podle článku by umělá inteligence mohla produkovat „dokonalý realismus“ (měřeno schopností lidí rozeznat, které ze tří sad obrazů byly hlubokými padělky) pomocí pouhých 32 referenčních obrázků.

Mona Lisa je samozřejmě jen jeden obraz, takže tři „živé portréty“ Leonardova díla jsou trochu znepokojující. Pro krátké animace neuronová síť pozorovala tři různá tréninková videa a tři verze Mona Lisy založené na těchto rámcích se zdají mít různé osobnosti. Kdyby Leonardo namaloval svůj slavný model z různých úhlů, mohl by systém vytvořit ještě realističtější živý portrét.

Zatímco animovaná Mona Lisa je zábavná, vzestup hluboce vyvolaných obav vyvolal obavy, že podoby vytvořené počítačem by mohly být použity k hanobení lidí, vyvolávaly rasové nebo politické napětí a dále narušovaly důvěru v online média. "[T] Hey podkopává naši důvěru ve všechna videa, včetně těch, která jsou skutečná, " píše John Villasenor v Brookings Institution. "Pravda sama se stává nepolapitelnou, protože si už nemůžeme být jistí, co je skutečné a co ne."

Zatímco AI se používá k vytváření hlubokých padělků, Villasenor říká, že alespoň prozatím lze také použít k identifikaci hlubokých padělků hledáním nekonzistentností, které nejsou pro lidské oko patrné.

Tim Hwang, ředitel iniciativy AI pro etiku a správu AI Harvard-MIT, říká Gregorymu Barberovi ve společnosti Wired, že nejsme v okamžiku, kdy by špatní herci mohli ve svých osobních notebookech ještě vytvořit sofistikované hluboké podvody. "Nic mi nenaznačuje, že to prostě použiješ na klíč k vytvoření hlubokých padělků doma, " říká. "Ne v krátkodobém, střednědobém nebo dokonce dlouhodobém."

Je to proto, že používání nového systému Samsung je drahé a vyžaduje odbornost. Barberův článek však poukazuje na to, že blázen lidem nebere super sofistikované foto-realistické video vytvořené neuronovou sítí. Jen minulý týden se na sociálních sítích šířilo zmanipulované video, které bylo zpomaleno, aby se zvuk amerického domu Speaker Nancy Pelosi šířil opilý.

Nakonec však bude tato technologie dostatečně dobrá, aby špatní herci mohli produkovat hluboké padělky, takže budou přesvědčeni, že je nelze detekovat. Když ten den přijde, Hwang řekne Wiredovi, lidé se budou muset spolehnout na faktické a kontextové vodítka, aby vyřešili, co je skutečné a co je falešné. Například, pokud se napůl usmělý úsměv Mony Lisy stane zubatým úsměvem a ona se vám snaží prodat bělící zubní pastu, je to určitě hluboká tvářenka.