Pred niekoľkými týždňami som bol v nákupnom stredisku, keď som si všimol ženu, ktorá nosí veľkú kabelku s remienkom podobným lanu. Pretože som na trhu s novým tote, uvažoval som sa ju opýtať, kde ju dostala. Ale predtým, ako som sa mohla pohnúť, zmizla za rohom. Keď som prišiel domov, skúsil som Googling s taškou. Ale nie som móda a zistil som, že nemám slovnú zásobu na opis toho, čo som videl. „Kožená kabelka so sťahovacou šnúrkou“ nemala pravdu. Nebola ani „kabelka s držadlom lana“ alebo „taška s remienkom na šnúrku“. Nakoniec som sa vzdal.
Cieľom novej technológie je pomôcť ľuďom hľadať veci, ktoré nedokážu nevyhnutne popísať slovami.
James Hays, počítačový vedec v Gruzínskom technologickom inštitúte, vytvoril počítačový program schopný porovnávať ručne kreslené obrázky s fotografiami. To by nakoniec mohlo viesť k programu, ktorý dokáže kombinovať služby internetového vyhľadávania obrázkov, ako sú napríklad Obrázky Google, a nájsť fotografie, ktoré presne zodpovedajú kresbám používateľov.
"Cieľom je byť schopný spájať alebo porovnávať fotografie a náčrty v oboch smeroch, rovnako ako ľudská plechovka, " hovorí Hays. „Človek môže vidieť zle nakreslenú skicu a zistiť, s akou fotografiou sa zdá. Chceme mať počítačovo rovnakú schopnosť. “
Na vytvorenie programu najal Hays takmer 700 pracovníkov z Amazon Mechanical Turk, trhu s crowdsourcingom, ktorý spája pracovníkov s ľuďmi, ktorí potrebujú vykonať úlohy. Jeho tím ukázal pracovníkom fotografie bežných predmetov a zvierat, ako sú veveričky, čajníky a banány, čo im umožnilo pozrieť sa na obrázok na dve sekundy. Pracovník by potom objekt vybral z pamäte. Tím nakoniec zhromaždil viac ako 75 000 náčrtov z 12 500 predmetov. Nazývali to „útržkovitá databáza“.
Program potom analyzoval náčrtky a porovnával ich s fotografiou, ktorú najviac podobali. Táto technológia identifikovala správnu fotografiu 37 percent času. Ľudia mali v porovnaní asi 54 percent času pravdu. Aj keď sa 37 percent nemusí zdať pôsobivé, v skutočnosti je to pre počítače docela skok.
"Ľudia sú už tak prekvapivo dobrí vo videní, rozpoznávame obrázky bez námahy, " hovorí Hays. "Je to skutočne prekvapivo náročné z výpočtového hľadiska."
Jednou z hlavných výziev pri zlepšovaní programu je skutočnosť, že väčšina ľudí je dosť mizerných umelcov. Ako Hays a jeho tím písali v článku na tému „Tvary a stupnice sú zdeformované. Časti objektov sú karikatúrované (veľké uši na slone), antropomorfizované (s úsmevom v ústach na pavúku) alebo zjednodušené (končatiny panáčika). “
Historicky sa výskum zameraný na získavanie počítačov na rozpoznávanie náčrtov zameriaval na veci, ako je rozmiestnenie čiar vo výkrese, smer, ktorým tieto čiary smerujú alebo kde sú hranice výkresu. Ale pretože ľudia kreslia len to, čo je pre človeka charakteristické (napríklad oči sú vždy zahrnuté do náčrtov, aj keď sú relatívne malé), je dôležité, aby počítač „naučil“, ako sú náčrty podobné a ako majú sklon sa líši od fotografií. Program na tento účel používa dve samostatné siete, jednu, ktorá vyhodnocuje náčrtky, a tú, ktorá vyhodnocuje fotografie. Neustála analýza veľkého súboru údajov sa program môže priebežne „učiť“.
Hays a jeho tím plánujú pokračovať v zdokonaľovaní programu pridávaním údajov. Pokroky v počítačovom vzdelávaní by tiež mali pomôcť zlepšiť mieru zhody. Od teraz má program pomerne vysokú mieru zhody pri porovnávaní náčrtov s internetovými databázami fotografií vrátane Flickru, hoci je ťažké kvantifikovať ho, hovorí Hays.
Okrem hľadania obrázkov kabeliek, ktoré tak veľmi potrebujem, má program množstvo menej frivolných možností použitia. Polícia mohla naskenovať podozrivé náčrtky a porovnať ich s databázou trestných fotografií. Program môžu využívať ľudia, ktorí hovoria a píšu v akomkoľvek jazyku alebo vôbec nemôžu písať.
„Jedným z cieľov porozumenia náčrtom je to, že sú trochu univerzálnym jazykom, “ hovorí Hays. „Nie je to viazané na konkrétny písaný jazyk a vôbec nie je spojené s gramotnosťou. [Program, ako je tento, by mohol priniesť] prístup k informáciám bez písomného jazyka. “
Program možno použiť aj umelecky na vytvorenie fotorealistických scén z náčrtov. Vždy ste si predstavovali bývanie na hrade na Mesiaci? Nakreslite to a program by jedného dňa mohol pre vás vytvoriť fotografiu obrázka zošitím iných obrázkov.
Informácie získané Haysom a jeho tímom by tiež mohli pomôcť pri riešení niektorých otázok neurovedy a psychológie, hovorí Hays.
"Tieto dvojice náčrtov a fotografií hovoria niečo o ľudskom vnímaní, o tom, čo si myslíme, že je výstižné, o ktoré časti obrázkov upútajú našu pozornosť, " hovorí Hays. „V niektorých ohľadoch táto databáza to kóduje veľmi dobre. Môže sa z toho niečoho škádliť, ak chcete povedať niečo o ľuďoch. “