diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 4632c29b..10625fa3 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -10,6 +10,22 @@ taxonomy: rok začiatku štúdia: 2021 +# Bakalárska práca 2025 + +Stav: + +- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny. +- Textová časť je neuspokojivá. + +Úlohy: + +- Naučte sa trénovať systém pre strojový preklad. +- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. +- Natrénujte a vyhodnotte model. +- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar. + + + # Bakalárska práca 2024 Korekcia textu pomocou neurónových sietí @@ -32,7 +48,7 @@ Stav: Úlohy: -- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train +- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train. - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho. - Pokračujte v písaní bakalárskej práce.