Care sunt pCare sunt principiile viziunii artificiale 3D? Principiile viziunii artificiale 3D? - Blog

Viziunea 3D este un domeniu multidisciplinar care implică grafica computerizată, viziunea pe computer și inteligența artificială. Acesta își propune să permită mașinilor să înțeleagă și să proceseze informații în spațiul tri-dimensional, realizând percepția, recunoașterea și înțelegerea în profunzime a obiectelor și scenelor.

Sarcini principale

Reconstrucție 3D

Estimarea adâncimii scenelor 3D sau eșantionarea digitală a suprafețelor obiectelor, precum și procesarea și afișarea datelor 3D; reconstrucție monoculară, reconstrucție binoculară, reconstrucție bazată pe lumină-structurată, reconstrucție bazată-laser; reconstrucție 3D la scară mare-, reconstrucție 3D mobilă.

Estimarea pozitiei

Calculul poziției și orientării camerelor sau obiectelor în spațiul fizic tri-dimensional și urmărirea-în timp real.

Înțelegerea 3D

Detectarea, recunoașterea și recuperarea obiectelor, precum și segmentarea și etichetarea semantică a scenelor sau obiectelor.

Principii de lucru

Imaginile cu viziune 3D sunt una dintre cele mai importante metode de percepție a informațiilor în roboții industriali și poate fi împărțită în metode optice și non--optice. În prezent, metodele optice sunt cele mai utilizate.

Metoda-de-Zbor (TOF).

Această metodă calculează distanța până la un obiect prin măsurarea diferenței de timp dintre emisia și recepția luminii. Luând ca exemplu o cameră TOF, fiecare pixel folosește diferența de timp a zborului luminii pentru a obține adâncimea obiectului. În metodele clasice de măsurare, sistemul detector începe cronometrarea atunci când emite un impuls luminos, stochează timpul-dus-întors când primește ecoul luminii țintă și estimează distanța țintă conform unei formule.

Este împărțit în TOF direct (DTOF) și TOF indirect (I-TOF). DTOF este utilizat de obicei în sistemele de-punct de distanță, iar realizarea imaginilor 3D la nivel de zonă-de multe ori necesită tehnologie de scanare; I-TOF extrapolează indirect timpul călătoriei dus-întors din măsurătorile-limitate de timp ale intensității luminii, eliminând nevoia de sincronizare precisă și este în prezent o soluție comercializată pentru mixere electronice și optice bazate pe camere TOF. Imaginile TOF pot fi utilizate pentru achiziția de imagini 3D cu un câmp vizual mare, la-distanță lungă, la-precizie redusă și la-cost redus și este utilizată pentru percepția mediului în sisteme inteligente fără pilot (cum ar fi roboți, vehicule fără pilot, drone etc.).

Imagini 3D de proiecție cu lumină structurată

Imaginile 3D cu proiecție luminoasă structurată sunt în prezent principala metodă de percepție a vederii 3D la roboți. Un proiector proiectează un model specific de iluminare a luminii structurate pe obiectul țintă, cum ar fi dungi sau modele de cod gri, iar o cameră captează imaginea modulată de țintă. Datorită ondulațiilor suprafeței obiectului, modelul de lumină structurată este deformat pe suprafața obiectului. Prin procesarea imaginilor și utilizarea modelelor vizuale pentru a compara modelele înainte și după deformare și analizând distorsiunea modelului, informațiile de coordonate tridimensionale ale fiecărui punct de pe suprafața obiectului țintă pot fi calculate.

În aplicațiile de sistem robotizat de mână-ochi, pentru scenariile în care nu este necesară o precizie ridicată de măsurare 3D (cum ar fi paletizarea, depaletizarea și prindere 3D), metoda de proiectare a modelelor pseudo-aleatoare de pete pentru a obține informații 3D țintă este destul de populară. Această metodă este folosită în mod obișnuit în inspecția industrială și modelarea 3D și poate obține rapid date 3D ale suprafeței obiectului. Un sistem de imagistică cu lumină structurată este format din mai multe proiectoare și camere. Formele structurale obișnuite includ: un singur proiector-o singură cameră, un singur proiector-dublă cameră, un singur proiector-mai multe camere, o singură cameră-doble proiectoare și o singură cameră-mai multe proiectoare.

Principiul de bază al imaginii 3D de proiectare a luminii structurate este următorul: proiectorul proiectează un model specific de iluminare a luminii structurate pe obiectul țintă, camera captează imaginea modulată de țintă, iar apoi informațiile 3D ale obiectului țintă sunt obținute prin procesarea imaginii și modele vizuale. Tipurile obișnuite de proiectoare includ: afișaj cu cristale lichide (LCD), proiecție cu modulație digitală a luminii (DLP: cum ar fi dispozitivele digitale cu microoglindă (DMD)) și proiecție directă cu model LED cu laser.

Pe baza numărului de proiecții luminoase structurate, imaginile 3D cu proiecție luminoasă structurată pot fi împărțite în metode 3D cu o singură-fotografie și 3D cu mai multe-captură. Lumina structurată cu un singur-shot folosește în principal codificarea cu multiplexare spațială și codificarea cu multiplexare în frecvență. Formele obișnuite de codare includ: codificarea culorilor, indexarea în tonuri de gri, codificarea formelor geometrice și modelele de pete aleatorii. În prezent, în aplicațiile de sistem robotizat de mână-ochi, pentru scenarii în care nu este necesară o precizie ridicată de măsurare 3D, cum ar fi paletizarea, depaletizarea și prindere 3D, metoda de proiectare a tiparelor pseudo-aleatoare de pete pentru a obține informații 3D țintă este utilizată pe scară largă.

Metodele 3D cu mai multe-fotografii utilizează în principal codificarea-multiplexării în timp. Formele obișnuite de codificare a modelelor includ: codificare binară, codificare cu deplasare de fază-cu mai multe frecvențe și metode hibride de codare (cum ar fi codul Gray și franjuri cu deplasare-de fază). Principiul de bază al imaginii 3D cu lumină structurată este prezentat în figura de mai jos. Un model de lumină structurată este generat folosind un computer sau un dispozitiv optic special și apoi proiectat pe suprafața obiectului testat folosind un sistem optic de proiecție. Un dispozitiv de achiziție a imaginii (cum ar fi o cameră CCD sau CMOS) este utilizat pentru a capta imaginea de lumină structurată modulată și deformată de suprafața obiectului. Algoritmii de procesare a imaginii sunt apoi utilizați pentru a calcula corespondența dintre fiecare pixel din imagine și punctele de pe conturul obiectului. În cele din urmă, informațiile de contur-tridimensionale ale obiectului sunt calculate utilizând modelul structurii sistemului și tehnologia de calibrare a acestuia. În aplicațiile practice, sunt utilizate în mod obișnuit proiecția codului Gray, proiecția franjelor cu deplasare de fază-sinusoidală sau o tehnologie 3D hibridă de cod Gray și-deplasare de fază sinusoidală.

Pentru suprafețele rugoase, lumina structurată poate fi proiectată direct pe suprafața obiectului pentru măsurarea imaginii vizuale; cu toate acestea, pentru măsurarea 3D a suprafețelor netede cu mare reflexie și a obiectelor în oglindă, proiecția luminii structurate nu poate fi proiectată direct pe suprafața testată, iar măsurarea 3D necesită utilizarea tehnicilor de reflexie speculară.

În această schemă, franjurile nu sunt proiectate direct pe conturul obiectului testat, ci mai degrabă pe un ecran de împrăștiere sau un ecran cu cristale lichide (LCD) este utilizat pentru a afișa direct franjurile. Camera dobândește informațiile marginale modulate de modificările de curbură ale suprafeței luminoase prin traiectoria luminii reflectate, apoi calculează morfologia conturului tri-dimensională.

Scanarea imaginilor 3D

Metodele de scanare a imaginilor 3D pot fi împărțite în metode de scanare, triangulare activă și metode confocale cromatice. Gama de scanare folosește un fascicul de lumină colimat pentru a scana întreaga suprafață țintă pentru măsurare 3D. Metodele tipice de măsurare a distanței de scanare includ: un singur-punct de timp-de-metode de zbor, cum ar fi modularea în frecvență a undei continue (FM{-CW) și măsurarea pulsului (LiDAR); interferometria cu împrăștiere cu laser, cum ar fi interferometrele bazate pe interferența cu mai multe-lungimi de undă, interferența holografică, interferența luminii albe și principiile interferenței speckle; și metode confocale, cum ar fi confocalul cromatic și focalizarea automată.

În metodele 3D de scanare cu distanță de un singur-punct, metoda-de timp-de-zbor într-un singur punct este potrivită pentru scanarea pe distanțe lungi-, dar precizia măsurării este relativ scăzută, în general în intervalul milimetric. Alte metode de scanare cu un singur-punct includ interferometria laser cu un singur-punct, microscopia confocală și triangularea laser activă într-un singur-punct. Aceste metode oferă o precizie ridicată de măsurare, dar prima necesită un mediu controlat. Scanarea în linie oferă o precizie moderată și o eficiență ridicată. Triangularea cu laser activă și microscopia confocală cromatică sunt adecvate în special pentru măsurarea 3D la efectorul final al unui braț robot. Triangularea activă se bazează pe principiul triangulației, folosind un fascicul colimat sau unul sau mai multe fascicule plane pentru a scana suprafața țintă pentru măsurare 3D.

Fasciculul de lumină se obține, de obicei, în următoarele moduri: colimare laser, extindere a fasciculului prismatic de suprafață cilindrică sau cvadrică, lumină ne-coerentă (cum ar fi lumina albă, sursa de lumină LED) proiectată prin găuri mici, fante (rețele) sau difracție coerentă a luminii. Triangularea activă poate fi împărțită în trei tipuri: scanare cu un singur-punct, scanare cu o-linie și scanare cu mai multe-linii. În prezent, cele mai multe produse disponibile comercial pentru efectoarele de capăt ale brațului robotizat sunt scanere cu un singur-punct și o-linie.

În metodele de scanare pe mai multe-linii, identificarea fiabilă a numerelor marginale este o provocare. Pentru a identifica cu precizie numerele marginale, două seturi de planuri luminoase perpendiculare sunt de obicei imaginite la viteză mare în alternanță. Acest lucru permite, de asemenea, scanarea „Flying Triangulation”, al cărei proces de scanare și reconstrucție 3D este prezentat în figura de mai jos. Proiecția cu mai multe-linii și imaginile cu un singur-bliț produc o vedere 3D rară. Mai multe secvențe de vizualizări 3D sunt generate prin scanarea de proiecție longitudinală și transversală, iar apoi un model de suprafață 3D complet și dens de înaltă{10}}rezoluție este generat prin înregistrarea imaginii 3D.

Microscopia confocală cromatică pare capabilă să scaneze și să măsoare obiecte opace și transparente brute și netede, cum ar fi suprafețele reflectorizante și suprafețele din sticlă transparentă, și este în prezent utilizată pe scară largă în domenii precum inspecția 3D a huselor telefoanelor mobile. Scanarea confocală cromatică are trei tipuri: scanare cu un singur-punct uni-dimensional de măsurare a distanței absolute, scanare cu mai multe-puncte și scanare în linie continuă. Figura de mai jos prezintă exemple de măsurare a distanței absolute și de scanare continuă a liniilor. Scanarea în linie continuă este, de asemenea, un tip de scanare matrice, dar cu o serie de puncte mai mare și mai densă.

Imagini 3D Stereo Vision

Viziunea stereo se referă în general la reconstrucția structurii 3D sau a informațiilor de adâncime a unui obiect țintă prin achiziționarea a două sau mai multe imagini din puncte de vedere diferite. Indiciile vizuale de percepție a adâncimii pot fi împărțite în indicii oculari și indicii binoculari (disparitate binoculară). În prezent, viziunea stereo 3D poate fi realizată prin viziune monoculară, viziune binoculară, viziune cu mai multe-vizualizări și imagini 3D în câmp luminos (cameră electronică compusă pentru ochi sau matrice). Indiciile de percepție a adâncimii vederii monoculare includ de obicei: perspectiva, diferențele de distanță focală, imagini cu mai multe-vizualizări, ocluzie, umbre, paralaxa de mișcare etc.

În viziunea robotică, aceasta poate fi obținută și folosind imagini în oglindă și alte forme-din metode-X. Viziunea binoculară percepția adâncimii indicii vizuale includ: poziția de convergență a ochiului și disparitatea binoculară. În viziunea artificială, două camere sunt utilizate pentru a obține două imagini de punct de vedere ale aceleiași scene țintă din două puncte de vedere, iar apoi disparitatea punctelor corespunzătoare din imaginile celor două puncte de vedere este calculată pentru a obține informațiile 3D de adâncime a scenei țintă. Un proces tipic de calcul al vederii stereo binoculare include următorii patru pași: corectarea distorsiunii imaginii, rectificarea perechilor de imagini stereo, înregistrarea imaginii și calculul hărții de disparitate a reproiectării triangulației.

Imaginile cu viziune cu mai multe-vizualizări sau cu imagini stereo cu mai multe-vizualizări, utilizează o singură cameră sau mai multe camere pentru a achiziționa mai multe imagini ale aceleiași scene țintă din mai multe puncte de vedere pentru a reconstrui informațiile tri-dimensionale ale scenei țintă.

Imaginile stereo cu mai multe-vizualizări sunt utilizate în principal în următoarele scenarii: utilizarea mai multor camere din puncte de vedere diferite pentru a obține mai multe imagini ale aceleiași scene țintă și apoi utilizarea reconstrucției stereo bazate pe caracteristici-și alți algoritmi pentru a obține informații despre adâncimea scenei și structura spațială; folosind tehnica structurii-din-mișcare (SFM), folosind aceeași cameră cu parametrii săi intrinseci neschimbați, pentru a obține mai multe imagini din puncte de vedere diferite pentru a reconstrui informațiile tri-dimensionale ale scenei țintă. Această tehnologie este folosită în mod obișnuit pentru a urmări un număr mare de puncte de control într-o scenă țintă, recuperând continuu informațiile structurale 3D ale scenei, precum și poziția și poziția camerei. Imaginile câmpului luminos diferă de principiile tradiționale ale imaginii camerei. Camerele tradiționale formează o imagine 2D direct pe planul de imagine după ce lumina trece prin obiectiv.

Camerele cu câmp luminos adaugă o matrice de microlensuri în fața planului senzorului. Lumina incidentă prin lentila principală trece din nou prin fiecare microlensă și este primită de matricea fotosensibilă, obținând astfel informații despre direcția și poziția razelor de lumină. Acest lucru permite ca rezultatele imaginii să fie procesate mai târziu, obținând un efect „înregistrați mai întâi, focalizați mai târziu” și permițând recuperarea structurii tri-dimensionale a scenei folosind aceste informații. În domenii precum realitatea virtuală și realitatea augmentată, tehnologia de imagistică a câmpurilor de lumină oferă o experiență vizuală mai realistă și permite o percepție tri--mai precisă și o interacțiune cu scena.

Principiul imaginii 3D în câmp luminos diferă din punct de vedere structural de principiile de imagistică ale camerelor tradiționale CCD și CMOS. Camerele tradiționale imaginează lumina direct pe planul de imagine după ce aceasta trece prin obiectiv, producând în general o imagine 2D. Camerele cu câmp luminos adaugă o matrice de microlensuri în fața planului senzorului, determinând ca lumina incidentă prin lentila principală să treacă din nou prin fiecare microlensă și să fie recepționată de matricea fotosensibilă, obținând astfel informații despre direcția și poziția razelor de lumină. Acest lucru permite post-procesarea rezultatelor imaginii, obținând un efect „întâi, focalizați mai târziu”.