Differentiable Depth Estimation for Bin Picking

Černý, Marek

Derivovatelný estimator hloubky pro bin picking

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/109075

Identifikátory

SIS: 214374

Katalog UK: 990022928250106986

Oponent práce

Šikudová, Elena

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

5. 9. 2019

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

disparita, vnimani hloubky, bin picking, hluboke konvolucni neuronove site

Klíčová slova (anglicky)

disparity, depth perception, bin picking, deep convolutional neural networks

Tato práce zkoumá možnosti rekonstrukce povrchu pro bin picking pomocí neuronových sítí. Při zkoumání článků z 2014-2018 se ukázalo, že stávající metody nejsou použitelné. Proto jsme vytvořili vlastní nízkourovnový přístup nazvaný EmfNet. Sít používá pyramidové zjemnování rozlišení, kde se na každé urovni pyramidy výpoctu úcastní tři oddělené sítě s jasne definovaným učelem, coz umožnuje témer kompletní pochopení fungování sítě. Model EmfNet byl již částecně použitelný, ale byl rozšířen na EmfNet-v2. Jednak dostal novou meřící vrstvu, aby nezávisel na zbytečném hyperparametru, hlavne ale bylo využito geometrických omezení k tomu, aby sit nemátly okluze (případy, kdy je určitá část povrchu vidět jen z jedné kamery). Obě sítě jsme implementovali a testovali na vlastnim korpusu jak renderovaných tak realných dat. Process párování korespondencí uvnitř sítě lze sledovat po- mocí vizualizace. Navrhli jsme způsob, jak využít robotickou ruku a SMF software k tomu, abychom relativně rychle získali potřebne mnozství dat pro natrénování modelu. Zatím nejlepší model zvládne zrekonstruovat 80% povrchu s chybou menší než 2 mm za čas pod 1 sekundu. 1

Abstrakt (anglicky)

The goal of this thesis was to investigate the neural 3D surface reconstruction from multiple views with the intent to use the resulting depth maps for bin picking. Survey of papers from 2014 to 2018 showed that none of the state of the art methods would be used to control a robot arm in our setup. Therefore we decided to create our low-level neural approach which we called the EmfNet. The network is based on a pyramidal resolution refining approach. At each pyramid's layer, there are three separate networks that take part in the computation. Each of them has a definite goal, which gives us almost complete understanding of what is going on inside the network. The EmfNet model was partially usable, but we nevertheless extended it to EmfNet-v2. First, another measuring layer was added, which freed EmfNet from depending on an unnecessary hyperparameter. Second, we used constraints on geometry for the network not to be confused by occlusions (cases where a certain part of the surface is visible only from a single camera). Both networks were implemented and tested on a corpus that was created as a part of this thesis. A corpus containing rendered as well as real data. The process of correspondence pairing inside the network can be observed using the visualization tool. We designed a way how to use a robotic arm...

Citace dokumentu

Metadata

Zobrazit celý záznam