Multi-view object pose estimation from images
Odhadování polohy objektu z více snímků
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202797Identifikátory
SIS: 281851
Kolekce
- Kvalifikační práce [11982]
Autor
Vedoucí práce
Konzultant práce
Šivic, Josef
Oponent práce
Lokoč, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Odhad polohy objektu|Více pohledů|Počítačové viděníKlíčová slova (anglicky)
Pose estimation|Multi-view|Computer vision|ImagesOdhad polohy objektu z obrazu je důležitou úlohou v počítačovém vidění s širokým uplatněním, například při robotickém uchopování. V situacích s částečnou viditelností nebo překryvem objektů může využití informací z více pohledů výrazně zvýšit přesnost díky geometrickým omezením. Ačkoli řada současných metod vyžaduje trénování modelu pro každý vstupní objekt, současný výzkum směřuje k přístupům, které jsou schopny generalizovat i na dosud neviděné objekty. V této práci se zaměřujeme na zlepšování odhadu polohy pomocí informací z více pohledů s důrazem na schopnost generalizace. Práce obsahuje podrobnou analýzu metody CosyPose a jejích hlavních omezení. Na zá- kladě těchto pozorování navrhujeme novou metodu založenou na přístupu featuremetric refinement, který využívá obrazové příznaky vytvořené pomocí základního modelu DI- NOv2 k řízení optimalizace polohy a účinně kombinuje geometrické a vizuální informace. Navržený přístup testujeme na benchmarku BOP a ukazujeme výrazné zlepšení oproti CosyPose, zejména v náročných scénářích s nepřesnými nebo nespolehlivými vstupními odhady.
Object pose estimation from an image is a well-established task in computer vision, crucial for applications such as robotic grasping. In cases of occlusions or partial visibil- ity, utilizing information from multiple views can greatly enhance estimation accuracy by leveraging geometric constraints. Although many state-of-the-art multi-view techniques rely on object-specific training, there is a growing focus on methods that generalize well to unseen objects. In this thesis, we focus on multi-view pose refinement with strong generalization capabilities. We conduct a thorough analysis of the CosyPose multi-view pipeline, identifying its main limitations. In response, we propose a novel featuremetric refinement method that utilizes DINOv2 image features to guide pose optimization, ef- fectively combining geometric and appearance-based cues. We evaluate our approach on the BOP benchmark, reaching state-of-the-art performance and demonstrating significant improvements over CosyPose, especially in challenging scenarios where input predictions are unreliable.
