https://frosthead.com

Umělá inteligence vytváří lidské tváře na základě jejich hlasů

Nová neuronová síť vyvinutá vědci z Massachusetts Institute of Technology je schopna vytvořit hrubou aproximaci obličeje jednotlivce pouze na základě úryvku jejich řeči, papíru publikovaného v předtiskovém serveru arXiv .

Tým školil nástroj umělé inteligence - algoritmus strojového učení naprogramovaný tak, aby „myslel“ podobně jako lidský mozek - s pomocí milionů online klipů zachycujících více než 100 000 různých řečníků. Neuronová síť s názvem Speech2Face použila tento datový soubor k určení vazeb mezi hlasovými narážkami a specifickými rysy obličeje; jak vědci píšou ve studii, věk, pohlaví, tvar úst, velikost rtů, struktura kostí, jazyk, přízvuk, rychlost a výslovnost, všechny faktory do mechaniky řeči.

Podle Meizie Ehrenkranze Gizmoda vychází Speech2Face ze spojení mezi zjevem a řečí a vytváří fotorealistické ztvárnění čelních osob s neutrálními výrazy. Přestože jsou tyto obrázky příliš obecné na to, aby bylo možné je identifikovat jako konkrétní osobu, většina z nich přesně určuje pohlaví, rasu a věk reproduktorů.

Zajímavé je, že Jackie Snow vysvětluje pro Fast Company, nový výzkum staví nejen na předchozím výzkumu týkajícím se předpovědí věku a pohlaví na základě řeči, ale také upozorňuje na spojení mezi hlasem a „kraniofaciálními rysy“, jako je nosní struktura.

Autoři dodávají: „Toho je dosaženo bez předchozích informací nebo existence přesných klasifikátorů pro tyto typy jemných geometrických prvků.“

Algoritmus má stále své nedostatky. Jak poznamenává Mindy Weisberger od Live Science, model má potíže s analýzou jazykových variací. Například, když hrál zvukový klip asijského muže mluvícího čínsky, vytvořil Speech2Face tvář správné etnicity, ale když byl zaznamenán stejný jedinec mluvící anglicky, AI vytvořila obraz bílého muže.

V jiných případech byli samci s vysokým postavením, včetně dětí, chybně identifikováni jako ženy, což odhaluje genderovou zaujatost modelu při sdružování nízko postavených hlasů s muži a hlasů vysoké se ženami. Vzhledem k tomu, že údaje o školení byly z velké části odvozeny ze vzdělávacích videí zveřejněných na YouTube, vědci dále poukazují na to, že tento algoritmus „nepředstavuje„ rovnoměrně celou světovou populaci “.

Podle Slateho Jane C. Hu je zákonnost používání videí YouTube pro vědecký výzkum poměrně jasná. Tyto klipy jsou považovány za veřejně dostupné informace; i když uživatel autorská práva na svá videa, mohou vědci zahrnout materiály do svých experimentů do klauzule „fair use“.

Etika této praxe je však méně přímočará. Nick Sullivan, vedoucí kryptografie ve společnosti Cloudflare, hovořil s Huem a uvedl, že byl překvapen, když viděl fotografii sebe sama představenou ve studii týmu MIT, protože nikdy nepodepsal vzdání se práva ani neslyšel přímo od vědců. Přestože Sullivan říká Hu, že by bylo „hezké“ být informován o jeho zařazení do databáze, uznává, že vzhledem k pouhé velikosti souboru údajů by bylo pro vědce obtížné oslovit všechny vyobrazené.

Současně Sullivan dochází k závěru: „Protože můj obraz a hlas byly vybrány jako příklad v dokumentu Speech2Face, než aby byly použity pouze jako datový bod ve statistické studii, bylo by zdvořilé natáhnout se, aby mě informoval nebo zeptej se na můj souhlas. “

Jednou z potenciálních aplikací v reálném světě pro Speech2Face je použití modelu k „připojení reprezentativní tváře“ k telefonním hovorům na základě hlasu mluvčího. Snow dodává, že technologie rozpoznávání hlasu je již používána v celé řadě oblastí - často bez výslovného vědomí nebo souhlasu jednotlivců. V loňském roce společnost Chase spustila program „Voice ID“, který se učí rozpoznávat zákazníky kreditních karet volajících do banky, zatímco nápravné instituce v celé zemi vytvářejí databáze „hlasových otisků“ uvězněných jednotlivců.

Umělá inteligence vytváří lidské tváře na základě jejich hlasů