Multi-view object pose estimation from images

Mikeštíková, Anna

Odhadování polohy objektu z více snímků

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (407.9Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/202797

Identifikátory

SIS: 281851

Konzultant práce

Šivic, Josef

Oponent práce

Lokoč, Jakub

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Katedra softwaru a výuky informatiky

Datum obhajoby

8. 9. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Odhad polohy objektu|Více pohledů|Počítačové vidění

Klíčová slova (anglicky)

Pose estimation|Multi-view|Computer vision|Images

Odhad polohy objektu z obrazu je důležitou úlohou v počítačovém vidění s širokým uplatněním, například při robotickém uchopování. V situacích s částečnou viditelností nebo překryvem objektů může využití informací z více pohledů výrazně zvýšit přesnost díky geometrickým omezením. Ačkoli řada současných metod vyžaduje trénování modelu pro každý vstupní objekt, současný výzkum směřuje k přístupům, které jsou schopny generalizovat i na dosud neviděné objekty. V této práci se zaměřujeme na zlepšování odhadu polohy pomocí informací z více pohledů s důrazem na schopnost generalizace. Práce obsahuje podrobnou analýzu metody CosyPose a jejích hlavních omezení. Na zá- kladě těchto pozorování navrhujeme novou metodu založenou na přístupu featuremetric refinement, který využívá obrazové příznaky vytvořené pomocí základního modelu DI- NOv2 k řízení optimalizace polohy a účinně kombinuje geometrické a vizuální informace. Navržený přístup testujeme na benchmarku BOP a ukazujeme výrazné zlepšení oproti CosyPose, zejména v náročných scénářích s nepřesnými nebo nespolehlivými vstupními odhady.

Abstrakt (anglicky)

Object pose estimation from an image is a well-established task in computer vision, crucial for applications such as robotic grasping. In cases of occlusions or partial visibil- ity, utilizing information from multiple views can greatly enhance estimation accuracy by leveraging geometric constraints. Although many state-of-the-art multi-view techniques rely on object-specific training, there is a growing focus on methods that generalize well to unseen objects. In this thesis, we focus on multi-view pose refinement with strong generalization capabilities. We conduct a thorough analysis of the CosyPose multi-view pipeline, identifying its main limitations. In response, we propose a novel featuremetric refinement method that utilizes DINOv2 image features to guide pose optimization, ef- fectively combining geometric and appearance-based cues. We evaluate our approach on the BOP benchmark, reaching state-of-the-art performance and demonstrating significant improvements over CosyPose, especially in challenging scenarios where input predictions are unreliable.

Citace dokumentu

Metadata

Zobrazit celý záznam