--- title: Nikita Bodnar published: true taxonomy: category: [vp2023,bp2024,bp2025] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 # Bakalárska práca 2025 Stav: - Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny. - Textová časť je neuspokojivá. Úlohy: - Naučte sa trénovať systém pre strojový preklad. - Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. - Natrénujte a vyhodnotte model. - Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar. # Bakalárska práca 2024 Korekcia textu pomocou neurónových sietí Spolupráca: Maroš Harahus, Andrii Pervashov Zadanie BP: 1. Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad. 2. Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad. 3. Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad na opravu textu vo vybranej úlohe. 4. Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia. Stretnutie 24.1.2024: Stav: - Nie je posun. Úlohy: - Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train. - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho. - Pokračujte v písaní bakalárskej práce. Stretnutie 23.11.2023 Stav: - Prečítaný článok o Spelling a urobené poznámky - Ostatné úlohy: in progress. Treba pridať!!! Úlohy: - Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie. - Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári. - Zlepšite tento systém. - V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články. Stretnutie 6.10. Stav: - Štúdium Python a neurónové siete. Stretnutie 3.7. Stav: Existuje model Marian NMT rep korekciu. Úloha: - [-] Zistite ako funguje neurónová sieť typu Transformer. - [x] Nainštalujte si systém Anaconda a prejdite si knihu Dive into Pyhton 3. - [ ] Zistite ako funguje strojový preklad. - [x] Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a *urobte si poznámky*. - [-] Prečítajte si knihu https://d2l.ai/ - [ ] Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy. - [ ] Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad. - [ ] Získajte prístup na školský server idoc. Zásobník úloh: - Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke. - Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu. - Podľa nich natrénujte a vyhodnotte model. - Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť. - Vypracujte webové demo.