Multi-view object pose estimation from images
Odhadování polohy objektu z více snímků
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/202797Identifiers
Study Information System: 281851
Collections
- Kvalifikační práce [12078]
Author
Advisor
Consultant
Šivic, Josef
Referee
Lokoč, Jakub
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Department of Software and Computer Science Education
Date of defense
8. 9. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Odhad polohy objektu|Více pohledů|Počítačové viděníKeywords (English)
Pose estimation|Multi-view|Computer vision|ImagesOdhad polohy objektu z obrazu je důležitou úlohou v počítačovém vidění s širokým uplatněním, například při robotickém uchopování. V situacích s částečnou viditelností nebo překryvem objektů může využití informací z více pohledů výrazně zvýšit přesnost díky geometrickým omezením. Ačkoli řada současných metod vyžaduje trénování modelu pro každý vstupní objekt, současný výzkum směřuje k přístupům, které jsou schopny generalizovat i na dosud neviděné objekty. V této práci se zaměřujeme na zlepšování odhadu polohy pomocí informací z více pohledů s důrazem na schopnost generalizace. Práce obsahuje podrobnou analýzu metody CosyPose a jejích hlavních omezení. Na zá- kladě těchto pozorování navrhujeme novou metodu založenou na přístupu featuremetric refinement, který využívá obrazové příznaky vytvořené pomocí základního modelu DI- NOv2 k řízení optimalizace polohy a účinně kombinuje geometrické a vizuální informace. Navržený přístup testujeme na benchmarku BOP a ukazujeme výrazné zlepšení oproti CosyPose, zejména v náročných scénářích s nepřesnými nebo nespolehlivými vstupními odhady.
Object pose estimation from an image is a well-established task in computer vision, crucial for applications such as robotic grasping. In cases of occlusions or partial visibil- ity, utilizing information from multiple views can greatly enhance estimation accuracy by leveraging geometric constraints. Although many state-of-the-art multi-view techniques rely on object-specific training, there is a growing focus on methods that generalize well to unseen objects. In this thesis, we focus on multi-view pose refinement with strong generalization capabilities. We conduct a thorough analysis of the CosyPose multi-view pipeline, identifying its main limitations. In response, we propose a novel featuremetric refinement method that utilizes DINOv2 image features to guide pose optimization, ef- fectively combining geometric and appearance-based cues. We evaluate our approach on the BOP benchmark, reaching state-of-the-art performance and demonstrating significant improvements over CosyPose, especially in challenging scenarios where input predictions are unreliable.
