Differentiable Depth Estimation for Bin Picking
Derivovatelný estimator hloubky pro bin picking
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/109075Identifiers
Study Information System: 214374
Collections
- Kvalifikační práce [10421]
Author
Advisor
Referee
Šikudová, Elena
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
disparita, vnimani hloubky, bin picking, hluboke konvolucni neuronove siteKeywords (English)
disparity, depth perception, bin picking, deep convolutional neural networksTato práce zkoumá možnosti rekonstrukce povrchu pro bin picking pomocí neuronových sítí. Při zkoumání článků z 2014-2018 se ukázalo, že stávající metody nejsou použitelné. Proto jsme vytvořili vlastní nízkourovnový přístup nazvaný EmfNet. Sít používá pyramidové zjemnování rozlišení, kde se na každé urovni pyramidy výpoctu úcastní tři oddělené sítě s jasne definovaným učelem, coz umožnuje témer kompletní pochopení fungování sítě. Model EmfNet byl již částecně použitelný, ale byl rozšířen na EmfNet-v2. Jednak dostal novou meřící vrstvu, aby nezávisel na zbytečném hyperparametru, hlavne ale bylo využito geometrických omezení k tomu, aby sit nemátly okluze (případy, kdy je určitá část povrchu vidět jen z jedné kamery). Obě sítě jsme implementovali a testovali na vlastnim korpusu jak renderovaných tak realných dat. Process párování korespondencí uvnitř sítě lze sledovat po- mocí vizualizace. Navrhli jsme způsob, jak využít robotickou ruku a SMF software k tomu, abychom relativně rychle získali potřebne mnozství dat pro natrénování modelu. Zatím nejlepší model zvládne zrekonstruovat 80% povrchu s chybou menší než 2 mm za čas pod 1 sekundu. 1
The goal of this thesis was to investigate the neural 3D surface reconstruction from multiple views with the intent to use the resulting depth maps for bin picking. Survey of papers from 2014 to 2018 showed that none of the state of the art methods would be used to control a robot arm in our setup. Therefore we decided to create our low-level neural approach which we called the EmfNet. The network is based on a pyramidal resolution refining approach. At each pyramid's layer, there are three separate networks that take part in the computation. Each of them has a definite goal, which gives us almost complete understanding of what is going on inside the network. The EmfNet model was partially usable, but we nevertheless extended it to EmfNet-v2. First, another measuring layer was added, which freed EmfNet from depending on an unnecessary hyperparameter. Second, we used constraints on geometry for the network not to be confused by occlusions (cases where a certain part of the surface is visible only from a single camera). Both networks were implemented and tested on a corpus that was created as a part of this thesis. A corpus containing rendered as well as real data. The process of correspondence pairing inside the network can be observed using the visualization tool. We designed a way how to use a robotic arm...