SzámítógépekInformatikai

Modern számítógépes látás. Feladatok és a számítógépes látás technológiáját. Programozási Computer Vision Python

Hogyan kell tanítani a számítógép megérteni, hogy mi látható a kép vagy képek? Ez egyszerűnek tűnik, de a számítógép ez csak álló mátrixot nullák, ahonnan szeretné kibontani fontos információkat.

Mi a számítógépes látás? Ez az a képesség, hogy „lássa” a számítógép

Vision - fontos információforrás a személy használja, megkapjuk, különböző becslések szerint, 70-90% -a az összes információt. És természetesen, ha azt akarjuk, hogy hozzon létre egy intelligens autó, meg kell végre ugyanazokat a készségeket és a számítógépet.

A probléma a számítógépes látás megállapítható egyértelműen. Mi az a „látni”? Magától értetődik, hogy hol vannak ránézésre. Ez arra a következtetésre jutott a különbség a számítógépes látás és az emberi látás. Vision számunkra - ez a tudás forrása a világon, valamint a forrás mutató adatok - azaz a képesség, hogy megértsük a távolságokat és méreteket.

Szemantikai kernel image

Nézzük a képet, le tudjuk írni, hogy számos attribútumok, hogy úgy mondjam, a kivonat szemantikai információt.

Például, nézi a képet, azt mondhatjuk, hogy ez a szabadban. Mi a városi forgalomban. Hogy vannak autók. tudjuk kitalálni, hogy ez Délkelet-Ázsiában a konfigurációs az épület és a hieroglifákat. A portré Mao Zedong megérteni, hogy ez Peking, és ha valaki látta, élő videó vagy maga volt ott, azt hiszem, hogy ez a híres Tienanmen téren.

Mit tudunk többet mondani a képet látva ez? Azonosítani tudjuk tárgyakat a képen, hogy mondjuk, hogy vannak emberek, itt közelebb - kerítés. Itt esernyők, hogy az épület plakátok. Ezek példák osztályok nagyon fontos tárgyak, amelyek részt vesznek a keresést az adott pillanatban.

Mégis mi lehet tanulni néhány jellemzője vagy attribútumait tárgyakat. Például itt tudjuk meg, hogy ez nem egy portré egyszerű kínai, nevezetesen Mao Zedong.

Szerint a jármű lehet meghatározni, hogy egy mozgó tárgy, és nehéz, hogy nem deformálódott a szállítás során. Mintegy zászlókat lehet mondani, hogy kifogásolja, ők is mozog, de nem kemény, folyamatosan deformálódik. És a jelenet van a szél, amely lehet meghatározni a fejlődő zászlók, és még határozza meg az irányt a szél, például, hogy fúj balról jobbra.

A távolságok és hosszúságú számítógépes látás

Nagyon fontos mérőszám információt a számítógépes látás tudomány. Ez mindenféle távolságok. Például a rover különösen fontos, mert a csapatok a Föld körülbelül 20 percig, és válaszoljon annyi. Ennek megfelelően, a kapcsolat oda-vissza - 40 perc. És ha teszünk egy tervet mozgató parancsokat a Föld, meg kell ezt figyelembe venni.

Sikeresen integrálta a technológia a számítógépes látás a videojátékok. Szerint a videó, meg lehet építeni a háromdimenziós modell tárgyak, emberek, és képeket a felhasználó állíthatja vissza a háromdimenziós modell városokban. És akkor járni őket.

számítógépes látás - egy meglehetősen széles. Ez szorosan összefügg az egyéb tudományok. Része a számítógépes látás Méri a képfeldolgozás területén néha kiosztja a számítógépes látás, történelmileg.

Elemzés, alakfelismerés - az út létrehozásához kiváló intelligencia

Nézzük ezeket a fogalmakat külön-külön.

Image Processing - ez egy olyan terület, algoritmusok, amelyben a bemeneti és kimeneti - kép, és mi van vele valamit csinálni.

képelemző - az a terület, gépi látás, melynek középpontjában a munka a kétdimenziós kép, és következtetéseket ebből.

Pattern Recognition - egy absztrakt matematikai diszciplína, amely felismeri az adatokat vektorok formájában. Azaz, a bejáratnál - vektor, és van valami köze hozzá. Ahol a vektor, nem vagyunk annyira fontos tudni.

Számítógépes látás - eredetileg az volt, hogy helyreállítsa a szerkezet a kétdimenziós képeket. Ma ezen a területen vált szélesebb és lehet értelmezni, hogy elfogadta az összes fizikai tárgyak tétele alapján a képet. Azaz, ez a feladata a mesterséges intelligencia.

Ezzel párhuzamosan a számítógépes látás egy teljesen más területen, a geodézia, fotogrammetria fejlődött - a mérés közötti távolság tárgyak kétdimenziós képeket.

Robotok „látni”

És végül - ez a gépi látás. Az gépi látás olyan elképzelés robotok. Ez a határozat néhány termelési problémák. Azt mondhatjuk, hogy a számítógépes látás - egy nagy tudomány. Egyesíti néhány más tudomány része. És amikor a számítógépes látás, megkapja az adott alkalmazás, kiderül egy gépi látás.

Számítógépes látás régió tömege gyakorlati alkalmazások. Ez együtt jár az automatizálás termelés. A vállalkozások hatékonyabbá vált, hogy cserélje ki a kézi munka gép. A gép nem fárad, nem alszik, ő szabálytalan munkarend, ő hajlandó dolgozni az év 365 napján. Tehát, a gépi munka, akkor kap egy garantált eredményt egy bizonyos időben, és ez nagyon érdekes. Minden feladat egyértelmű használatát a számítógépes képfeldolgozó rendszerek. És nincs is jobb, mint látni az eredményt azonnal a képen csak a számítási lépésben.

Küszöbén a világ mesterséges intelligencia

Plusz a területen - ez kemény! Jelentős része az agy látásért felelősek, és úgy vélik, hogy ha tanítani a számítógép „látni”, vagyis a teljes körű használatát a számítógépes látás, ez az egyik célkitűzése teljes mesterséges intelligencia. Ha meg tudjuk oldani a problémát az emberi szinten, valószínűleg ugyanabban az időben, akkor oldja meg a problémát AI. Ez nagyon jó! Vagy nem túl jó, ha megnézi, „Terminator 2”.

Miért látás - nehéz? Mivel a kép ugyanazon objektum nagy mértékben változhat a külső körülményektől függően. Attól függően, hogy a megfigyelés tárgya pont máshogy néznek ki.

Például, egy és ugyanaz a szám, vett különböző szögekből. És mi a legérdekesebb a szám lehet egy szem, két szem és fél. És a szövegkörnyezettől függően (ha ez a kép az ember egy ing festett szemek), a szem lehet több, mint kettő.

A számítógép még mindig nem érti, de ez „látja”

Egy másik tényező, ami megnehezíti - ez a világítás. Ugyanazt a jelenetet különböző világítási egy kicsit más. a tárgy mérete változhat. Sőt, a tárgyak minden osztályban. Hogyan tud mondani az ember, hogy az ő magassága 2 méter? Semmi. Humán növekedési és lehet 2,3 m, és a 80 cm-es. Mint más típusú objektumok, azonban olyan tárgyak azonos osztályú.

Különösen élő tárgyak esnek a különböző törzsek. Hair emberek, sportolók, az állatokat. Nézd meg a képeket a ló fut határozza meg, mi történik az sörény és a farok egyszerűen lehetetlen. A átfedő objektumok a kép? Ha lök egy számítógépes képet, még a legerősebb gép találni nehéz, hogy a helyes döntés.

Következő nézet - ez egy álca. Egyes tárgyak, állatok álcázva a környezetre, és elég ügyesen. És ugyanez a foltok és színezés. Mindazonáltal látjuk őket, bár nem mindig messziről.

A másik probléma - a mozgás. Tárgyak mozgásban elképzelhetetlen deformálódnak.

Sok a tárgyak igen változó. Itt például a két alábbi képek a tárgyak a „szék”.

És ezen lehet ülni. De ahhoz, hogy tanítani egy gép, úgy, hogy a különböző dolgokat alakja, színe, anyaga, minden tárgy „szék” - nagyon nehéz. Ez az a kihívás. Hogy integrálja módszerek számítógépes látás - tanítani a gép megérteni, elemezni, spekulálni.

Integrálása számítógépes látás különböző platformokon

A tömeg a számítógépes látás kezdett behatolni több 2001-ben, amikor megalkotta az első arc detektor. Megcsináltuk két szerző: Viola, Jones. Ez volt az első gyors és megbízható elég algoritmus, amely bizonyítja a gépi tanulási módszereket.

Most a számítógépes látás elég új gyakorlati alkalmazások - elismerése az emberi arc.

De ahhoz, hogy ismerjék az ember, mint a filmekben - véletlenszerűen szögek, különböző fényviszonyok mellett - lehetetlen. De ahhoz, hogy megoldja a problémát, vagy az egyik, hogy a különböző emberek különböző megvilágításnál, vagy egy másik póz, hasonló, mint a fényképen az útlevél, lehetőség van egy nagyfokú bizalom.

útlevél fénykép követelmények nagyrészt a jellemzője az arcfelismerési algoritmusok.

Például, ha van egy biometrikus útlevél, néhány korszerű repülőterek, akkor az automatikus útlevél ellenőrző rendszer.

Megoldatlan problémája számítógépes látás - képes felismerni bármilyen szöveges

Lehet, hogy valaki használt OCR rendszer. Az egyik ilyen - a Fine Reader, nagyon népszerű RuNet rendszerben. Sok formája van, ahol töltse ki az adatokat, ők tökéletesen beolvasott az információk a rendszer által felismert nagyon jól. De bármilyen szöveget és képet a helyzet sokkal rosszabb. Ez a probléma továbbra is megoldatlan.

Games érintő számítógépes látás, motion capture

Külön nagy terület - a létrehozása háromdimenziós modellek és motion capture (ami meglehetősen sikeresen végrehajtott számítógépes játékok). Az első program, amely felhasználja a számítógépes látás - egy olyan rendszer interakció a számítógép segítségével gesztusok. Mikor jött létre, hogy ez egy csomó dolgot nyitva.

Az algoritmus célja egyszerűen, de beállítani telt el, hogy hozzon létre egy generátor szintetikus képek az emberek, hogy egy millió kép. Szuperszámítógép velük kiválasztani a paramétereket az algoritmus, amelyre most jól működik.

Ez egy millió kép és hét megszámlálható szuperszámítógép ideje lehetővé teszi egy olyan algoritmus, amely fogyaszt 12% -át a kapacitás egy processzor és lehetővé teszi a személy érzékeli a helyzetét valós időben. Ez a Microsoft Kinect rendszer (2010).

Keresés a képek tartalom szerint lehetővé teszi, hogy feltölteni a képeket a rendszer, és az eredmények azt fogja adni az összes kép ugyanazzal a tartalommal, és készült azonos szögben.

Példák számítógépes látás: a háromdimenziós és kétdimenziós térképek most készül vele. Térképek a navigációhoz autók rendszeresen frissített szerint a DVR.

Van egy adatbázis több milliárd földrajzi címkékkel ellátott fényképeket. Letölti a képet az adatbázisban, akkor lehet meghatározni, ahol ez történt, és még néhány szempontból. Persze, feltéve, hogy az a hely, elég népszerű, hogy egy időben a turisták és egy sor képek a területen már ott.

robotok mindenütt

Robotics jelenleg, mindenütt, anélkül, hogy bármilyen módon. Most van olyan járművek, speciális kamerák, amelyek felismerik a gyalogosok és a közúti jelzések átvitelére parancsokat a vezető (ezt olyan módon egy számítógépes program segítségével megtekintheti, segíti az autós). És van egy teljesen automatizált robot járművek, de nem támaszkodhat kizárólag a videó kamera rendszer alkalmazása nélkül nagy mennyiségű további információt.

Modern kamera - ez egy analóg camera obscura

Beszéljünk a digitális kép. A modern digitális fényképezőgépek vannak elhelyezve az elvet a camera obscura. Csak ahelyett, hogy a nyílást, amelyen keresztül a fény belép a távolsági fény és vetített a hátsó fal a kamra a téma áramkör, van egy speciális optikai rendszer az úgynevezett lencse. Célja, hogy összegyűjtse a nagy fénynyaláb és átalakítani, hogy minden a sugarak átengedjük egy virtuális pont megszerzése érdekében a vetítés és alkot egy képet filmen vagy mátrixban.

A modern digitális fényképezőgépek (mátrix) áll az egyes elemek - pixel. Minden pixel lehet mérni a fény energiáját, amely esemény a pixel teljes, és kiadja az egyik kimenet számát. Ezért egy digitális fényképezőgép, megkapjuk a kép helyett fényerő beállított fényméréseket, fogott egy pixel - a számítógép látómezőt. Ezért, amikor a kép, amit látunk, nem áramló vonalak és tiszta kontúrokkal, és egy rács színes terek különböző színekben - pixel.

Alább látható az első digitális képet a világban.

De ez a kép nem? Színes. Mi a szín?

Pszichológiai színérzékelésünket

Color - ez az, amit látunk. A szín az egy és ugyanaz a dolog az emberek és macskák más lesz. Mivel mi (emberek) és az állati optikai rendszer - a látás más. Ezért a szín - ez pszichológiai minőségét elképzelés, amely akkor jelentkezik, ha megfigyeljük tárgyak és a fény. És nem egy fizikai tulajdonság az objektum és a fény. Color - az interakció eredményeként a könnyű komponensek, és a jelenet a vizuális rendszer.

Programozási Computer Vision Python Könyvtárhasználati

Ha úgy döntött, hogy vegyenek komolyan a tanulmány a számítógépes látás, azonnal készülni a számos nehézség, hogy a tudomány nem a legegyszerűbb, és elrejti számos buktatókat. De a „programozás Computer Vision a Python” szerzőségi Jan Erik Solema - egy könyvet, amely bemutatja az összes legegyszerűbb nyelvet. Itt megismerkedhetnek a módszerek felismerése különböző tárgyakat 3D, megtanulják, hogy működjön együtt a sztereó kép, a virtuális valóság és sok más alkalmazás számítógépes látás. A könyv elég példa Python. De a magyarázatok kerülnek bemutatásra, hogy úgy mondjam, generalizált, hogy ne terhelje túl sok kutatás és a kemény adatokat. Dolgozz alkalmas a hallgatók, amatőrök, és a rajongók. Töltse le ezt a könyvet, és mások a számítógépes látás (pdf-formátumban) lehet a hálózatban.

Abban a pillanatban, vannak nyílt forráskódú könyvtár számítógépes látás algoritmusok és képfeldolgozás és numerikus algoritmusok OpenCV. Ez végre a legtöbb modern programozási nyelvek, nyílt forráskódú. Ha beszélünk a számítógépes látás, Python használ, mint egy programozási nyelv, ez is a támogatást a könyvtár, továbbá, hogy folyamatosan fejlődik, és van egy nagy közösség.

A társaság „Microsoft” szolgáltatásokat nyújt, Api-, hogy a vonat a neurális hálózat dolgozni, hogy a képeket az emberek. Ott van még a lehetőséget, hogy alkalmazzák a számítógépes látás, Python használ, mint egy programozási nyelv.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hu.delachieve.com. Theme powered by WordPress.