- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
- Skript na prípravu dát - spustený.
- chyba pri spustení trénovacieho skriptu - chýba executable.
Úlohy:
- ! Začnite pracovať na písomnej časti.
- Nainštalujte si Marian NMT.
- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
- Textová časť je neuspokojivá.
Úlohy:
- Naučte sa trénovať systém pre strojový preklad.
- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
- Natrénujte a vyhodnotte model.
- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
- Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
- Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári.
- V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.