Chihuahua eða muffin? Leit mín að besta tölvusjón API

Þessi vinsæli internetmeme sýnir þeim skelfilegu líkindi sem deilt er milli chihuahuas og muffins. Þessum myndum er oft deilt í kynningum í iðnaðar iðnaðarins (ég sjálfur innifalinn).

En ein spurning sem ég hef ekki séð neinn svara er hversu góður IS nútíma AI við að fjarlægja óvissu myndar sem gæti líkst chihuahua eða muffins? Til skemmtunar og fræðslu mun ég kanna þessa spurningu í dag.

Tvíundarflokkun hefur verið möguleg síðan perceptron algrímið var fundið upp árið 1957. Ef þú heldur að AI sé eflt núna, greindi New York Times frá því árið 1958 að uppfinningin væri upphafið að tölvu sem myndi „geta gengið, talað, séð, skrifa, endurskapa sig og vera meðvitaður um tilvist sína. “ Þrátt fyrir að perceptron vélar, eins og Mark 1, hafi verið hannaðar til myndgreiningar, en í raun og veru geta þær aðeins greint munur sem eru aðgreindir línulega. Þetta kemur í veg fyrir að þeir geti lært flókin mynstur sem finnast í flestum sjónrænum miðlum.

Engin furða að heimurinn var vonsvikinn og AI vetur varð til. Síðan þá hafa marglaga skynjun (vinsæl á níunda áratug síðustu aldar) og samfelld taugakerfi (brautryðjandi af Yann LeCun árið 1998) skilað miklu meira en eins lags skynjun í myndviðurkenningarverkefnum.

Með stórum merktum gagnasöfnum eins og ImageNet og öflugri GPU tölvuvinnslu, hafa þróaðri taugakerfi eins og AlexNet, VGG, Inception og ResNet náð framúrskarandi árangri í tölvusjón.

Forritaskil tölvusjónar og myndgreiningar

Ef þú ert vélanámsverkfræðingur er auðvelt að gera tilraunir með og fínstilla þessar gerðir með því að nota fyrirfram þjálfaðar gerðir og þyngd í annað hvort Keras / Tensorflow eða PyTorch. Ef þú ert ekki ánægður með að fínstilla taugakerfi á eigin spýtur, þá ertu heppinn. Nánast allir fremstu tækni risar og efnilegir sprotafyrirtæki segjast „democratize AI“ með því að bjóða API í tölvusjóni sem er auðvelt að nota.

Hver er bestur? Til að svara þessari spurningu þyrfti þú að skilgreina viðskiptamarkmið þitt, vörunotkunarmál, prufagagnasöfn og árangursmælikvarða áður en þú getur borið saman lausnirnar sín á milli.

Í stað alvarlegrar fyrirspurnar getum við að minnsta kosti fengið mikla tilfinningu fyrir mismunandi hegðun hvers vettvangs með því að prófa þá með leikfangavandanum okkar að aðgreina chihuahua frá muffins.

Framkvæmd prófsins

Til að gera þetta skiptu ég kanónískum meme í 16 prófmyndir. Síðan nota ég opinn kóðann sem skrifaður er af verkfræðingnum Gaurav Oberoi til að treysta niðurstöður úr mismunandi forritaskilum. Hverri mynd er ýtt í gegnum sex API skjöl sem talin eru upp hér að ofan, sem skila mikilli öryggismerkjum sem spá þeirra. Undantekningarnar eru Microsoft, sem skilar bæði merkimiðum og myndatexta, og Cloudsight, sem notar manna-AI blendingartækni til að skila aðeins einum myndatexta. Þetta er ástæðan fyrir að skýjaskil geta skilað ógeðslega nákvæmum myndatexta fyrir flóknar myndir, en það tekur 10–20 sinnum lengri tíma að vinna úr.

Hér að neðan er dæmi um framleiðsluna. Smelltu hér til að sjá niðurstöður allra 16 chihuahua á móti muffinsmyndum.

Hversu vel stóðu APIs? Annað en Microsoft, sem ruglaði þessum muffins fyrir uppstoppað dýr, viðurkenndi hvert annað API að myndin væri matur. En það var ekki samkomulag um hvort maturinn væri brauð, kaka, smákökur eða muffins. Google var eina API sem tókst að bera kennsl á muffins sem merkimiða sem líklegast er.

Við skulum líta á chihuahua dæmi.

Aftur gekk API-ið frekar vel. Allar gerðu sér grein fyrir því að myndin er hundur, þó að fáir þeirra hafi misst af nákvæmri tegund.

Það voru þó ákveðin mistök. Microsoft skilaði skýrt rangri myndatexta þrisvar sinnum og lýsti muffininu sem annað hvort uppstoppuðu dýri eða bangsa.

Google var fullkominn auðkenni muffins og skilaði „muffin“ sem hæsta öryggismerki fyrir 6 af 7 muffins myndum í prófunarsettinu. Önnur forritaskil skiluðu ekki „muffin“ sem fyrsta merki fyrir einhverja muffinsmynd, heldur skiluðu í stað minna viðeigandi merkimiða eins og „brauð“, „kex“ eða „cupcake.“

En þrátt fyrir velgengni sína mistókst Google þessa tilteknu muffinsímynd og skilaði „trýnni“ og „hundaræktarhópi“ sem spár.

Jafnvel fullkomnustu vélar í námi vélarinnar í heiminum eru leystir upp með andlitsástandi chihuahua okkar á móti muffins áskorun. Mannlegt smábarn slær djúpt nám þegar kemur að því að reikna út hvað er matur og hvað er Fido.

Svo hvaða tölvusjón API er best?

Til þess að komast að svari við þessari fimmti leyndardóm, verður þú að fara yfir til TOPBOTS til að lesa upprunalegu greinina að fullu!