https://frosthead.com

Umelá inteligencia vytvára ľudské tváre na základe ich hlasov

Nová neurónová sieť vyvinutá vedcami z Massachusetts Institute of Technology je schopná vytvoriť hrubú aproximáciu tváre jednotlivca iba na základe úryvku ich reči, papiera uverejneného v predtlačových serveroch arXiv .

Tím školil nástroj umelej inteligencie - algoritmus strojového učenia naprogramovaný tak, aby „myslel“ podobne ako ľudský mozog - pomocou miliónov online klipov, ktoré zachytávajú viac ako 100 000 rôznych reproduktorov. Neurónová sieť s názvom Speech2Face použila tento súbor údajov na určenie prepojení medzi vokálnymi narážkami a špecifickými rysmi tváre; ako vedci píšu v štúdii, vek, pohlavie, tvar úst, veľkosť pier, štruktúra kostí, jazyk, prízvuk, rýchlosť a výslovnosť - to všetko ovplyvňuje mechaniku reči.

Podľa Meizy Ehrenkranzovej od spoločnosti Gizmodo sa Speech2Face opiera o vzťahy medzi vzhľadom a rečou, aby vytvoril fotorealistické stvárnenie osôb čeliacich čelným stvárniam s neutrálnymi výrazmi. Aj keď sú tieto obrázky príliš všeobecné na to, aby sa dali identifikovať ako konkrétna osoba, väčšina z nich presne určuje pohlavie, rasu a vek hovoriacich.

Je zaujímavé, že Jackie Snow vysvetľuje pre Fast Company nový výskum, ktorý vychádza nielen z predchádzajúceho výskumu týkajúceho sa predpovedí veku a pohlavia z reči, ale tiež poukazuje na spojenia medzi hlasom a „kraniofaciálnymi prvkami“, ako je napríklad štruktúra nosa.

Autori dodávajú: „Toto sa dosahuje bez predchádzajúcich informácií alebo existencie presných klasifikátorov pre tieto typy jemných geometrických prvkov.“

Algoritmus má však svoje nedostatky. Ako poznamenáva Mindy Weisberger od Live Science, model má problémy s analýzou jazykových variácií. Napríklad pri hraní zvukových klipov ázijského hovoriaceho čínštinou vytvoril Speech2Face tvár správnej etnicity, ale keď bol zaznamenaný ten istý jednotlivec hovoriaci anglicky, AI vytvorila obraz bieleho muža.

V iných prípadoch boli muži s vysokým postavením, vrátane detí, chybne identifikovaní ako ženy, čo odhaľuje rodovú zaujatosť modelu pri spájaní nízko položených hlasov s mužmi a mužov so zvýšeným postavením so ženami. Vzhľadom na skutočnosť, že údaje o školeniach boli zväčša odvodené od vzdelávacích videí uverejnených na YouTube, vedci ďalej zdôrazňujú, že tento algoritmus „nepredstavuje rovnomerne celú svetovú populáciu“.

Podľa Slateovej Jane C. Hu je zákonnosť používania videí YouTube pre vedecký výskum pomerne jasná. Takéto klipy sa považujú za verejne dostupné informácie; Aj keď používateľ vlastní autorské práva na svoje videá, vedci môžu tieto materiály zahrnúť do svojich experimentov v rámci klauzuly „čestného použitia“.

Etika tejto praxe je však menej jasná. Nick Sullivan, vedúci kryptografie v spoločnosti Cloudflare, povedal, že je prekvapený, keď videl fotografiu seba samého uvedenú v štúdii tímu MIT, pretože nikdy nepodpísal vzdanie sa práva ani počul priamo od vedcov. Aj keď Sullivan hovorí Hu, že by bolo „pekné“ byť informovaný o jeho zaradení do databázy, uznáva, že vzhľadom na úplnú veľkosť súboru údajov by bolo pre vedcov ťažké osloviť všetkých zobrazených.

Sullivan zároveň uzatvára: „Keďže môj obraz a hlas boli v papieri Speech2Face vybrané ako príklad, a nie iba ako údajový bod v štatistickej štúdii, bolo by zdvorilé osloviť ma, aby ma informoval alebo požiadať o moje povolenie. “

Jednou z potenciálnych aplikácií v reálnom svete pre Speech2Face je použitie modelu na „pripojenie reprezentatívnej tváre“ k telefónnym hovorom na základe hlasu hovoriaceho. Snow dodáva, že technológia rozpoznávania hlasu sa už používa vo viacerých oblastiach - často bez výslovného vedomia alebo súhlasu jednotlivcov. V minulom roku spoločnosť Chase spustila program „Voice ID“, ktorý sa naučí rozpoznávať zákazníkov kreditných kariet volajúcich do banky, zatiaľ čo nápravné inštitúcie v celej krajine vytvárajú databázy „hlasových odtlačkov“ uväznených osôb.

Umelá inteligencia vytvára ľudské tváre na základe ich hlasov