Adaptation of Large Language Models for Machine Translation using CPO

Hrabal, Miroslav

Adaptace velkých jazykových modelů pro strojový překlad metodou CPO

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (295.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/209737

Identifikátory

SIS: 282715

Oponent práce

Libovický, Jindřich

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Softwarové a datové inženýrství

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

9. 6. 2026

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

strojový překlad|WMT|contrastive preference optimization|LLM fine-tuning

Klíčová slova (anglicky)

machine translation|WMT|contrastive preference optimization|LLM fine-tuning

Tato práce se zabývá adaptací obecných open-weight velkých jazykových modelů (LLM) pro strojový překlad z angličtiny do češtiny za omezení tréno- vání na jedné GPU. Zkoumáme metodu Contrastive Preference Optimization (CPO), rozšiřujeme metodologii z úrovně vět na úroveň odstavců a účast- níme se WMT24 a WMT25 General MT Shared Task za účelem nezávislého lidského hodnocení a srovnání se současnými nejlepšími systémy. Náš mo- del pro WMT24 se umístil jako nejlepší systém v kategorii constrained pro tuto jazykovou dvojici, což podporuje, že metoda CPO může vést ke skuteč- nému, člověkem vnímanému zlepšení kvality překladu. Následný příspěvek do WMT25 zkoumal přísnější, automatizované filtrování preferenčního datasetu, založené na LLM. Dále jsme přispěli k automatickému hodnocení strojového překladu zkoumáním kombinace open-weight modelů LLM a automatické op- timalizace promptů pomocí knihovny DSPy. K ověření tohoto přístupu jsme se zúčastníli sdílené úlohy WMT25 MT Evaluation Shared Task.

Abstrakt (anglicky)

This thesis explores adapting general-purpose, open-weight Large Lan- guage Models (LLMs) for English-to-Czech machine translation under con- straints of training on a single GPU. We investigate the Contrastive Prefer- ence Optimization (CPO) method, extend the methodology from sentence- level to paragraph-level, and participate in WMT24 and WMT25 General MT Shared Tasks for independent human evaluation and comparison with state-of-the-art. Our WMT24 model ranked as the best-performing con- strained system for this language pair, providing evidence that the CPO method can lead to real, human-perceived improvements in translation qual- ity. Our subsequent WMT25 submission explored stricter, LLM-based au- tomated filtering of the preference dataset. Furthermore, we contribute to automated MT evaluation by exploring the combination of open-weight LLM- as-a-judge models and automatic prompt optimization using DSPy. To vali- date this approach, we take part in WMT25 MT Evaluation Shared Task.

Citace dokumentu

Metadata

Zobrazit celý záznam