forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Nikita Bodnar | true | 
  | 
rok začiatku štúdia: 2021
Bakalárska práca 2025
Zadanie:
- Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu.
 - Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
 - Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
 
Poznámky 21.1.2025
Stav:
- Napísané skripty pre vyhodnotneie "masked" language modeling.
 - Vyhodnotené modely SlovakBERT a multilingualbert BASE.
 
Úlohy:
- Vyberte vhodnú množinu slovenských textov.
 - Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka).
 - Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu.
 - Vyhodnotte viaceré modely.
 - Pokračujte v písaní práce podľa nového zadania.
 
Zásobník úloh:
- Využite modely SlovakT5 a ByT5.
 
Stretnutie 17.12.
Stav:
- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
 - Skript na prípravu dát - spustený.
 - chyba pri spustení trénovacieho skriptu - chýba executable.
 
Úlohy:
- ! Začnite pracovať na písomnej časti.
 - Nainštalujte si Marian NMT.
 - Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
 - Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
 - Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
 - Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
 - Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
 - Do práce doplnte odkazy na vedecké články.
 
Zásobník úloh:
- Natrénujte model.
 
Stav:
- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
 - Textová časť je neuspokojivá.
 
Úlohy:
- Naučte sa trénovať systém pre strojový preklad.
 - Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
 - Natrénujte a vyhodnotte model.
 - Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
 
Bakalárska práca 2024
Korekcia textu pomocou neurónových sietí
Spolupráca: Maroš Harahus, Andrii Pervashov
Zadanie BP:
- Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad.
 - Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad.
 - Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad na opravu textu vo vybranej úlohe.
 - Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia.
 
Stretnutie 24.1.2024:
Stav:
- Nie je posun.
 
Úlohy:
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
 - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
 - Pokračujte v písaní bakalárskej práce.
 
Stretnutie 23.11.2023
Stav:
- Prečítaný článok o Spelling a urobené poznámky
 - Ostatné úlohy: in progress. Treba pridať!!!
 
Úlohy:
- Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
 - Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári.
 - Zlepšite tento systém.
 - V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.
 
Stretnutie 6.10.
Stav:
- Štúdium Python a neurónové siete.
 
Stretnutie 3.7.
Stav:
Existuje model Marian NMT rep korekciu.
Úloha:
- [-] Zistite ako funguje neurónová sieť typu Transformer.
 - Nainštalujte si systém Anaconda a prejdite si knihu Dive into Pyhton 3.
 - Zistite ako funguje strojový preklad.
 - Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a urobte si poznámky.
 - [-] Prečítajte si knihu https://d2l.ai/
 - Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy.
 - Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad.
 - Získajte prístup na školský server idoc.
 
Zásobník úloh:
- Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke.
 - Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu.
 - Podľa nich natrénujte a vyhodnotte model.
 - Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť.
 - Vypracujte webové demo.