forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			197 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			197 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Nikita Bodnar
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [vp2023,bp2024,bp2025]
 | |
|     tag: [chatbot,rasa,dialog,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| 
 | |
| rok začiatku štúdia: 2021
 | |
| 
 | |
| # Bakalárska práca 2025
 | |
| 
 | |
| Zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu. 
 | |
| 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
 | |
| 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
 | |
| 
 | |
| Stretnutie 27.3.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Text je v lepšom stave.
 | |
| 
 | |
| Stretnutie 11.3.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii.
 | |
| - Práca na texte BP ???
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc
 | |
| - Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu  sFew Shot a SFT (Supervised Finetuning).
 | |
| - Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar.
 | |
| - Čím skôr odovzdajte text BP pre získanie spätnej väzby
 | |
| - Nové Kódy pre experimenty nahrajte na GIT.
 | |
| 
 | |
| Stretnutie:
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Vybratá množina c4
 | |
| - Vyhodnotenie SlovakBERT, mBERT a Roberta Base pre EN.
 | |
| - Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE. 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty.
 | |
| - [x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert 
 | |
| - [x] Vypracujte tabuľky s výsledkami experimentov.
 | |
| - [-] Do práce opíšte experimenty.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vypracujte experimenty pre modely Byt5 a slovak t5.
 | |
| 
 | |
| 
 | |
| Poznámky 21.1.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Napísané skripty pre vyhodnotenie "masked" language modeling.
 | |
| - Vyhodnotené modely SlovakBERT a multilingualbert BASE.
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Vyberte vhodnú množinu slovenských textov.
 | |
| - [-] Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka). 
 | |
| - [-] Pripravte množinu pre pre úlohu opravy od identifikovaného preklepu.
 | |
| - [-] Vyhodnotte viaceré modely.
 | |
| - [ ] Pokračujte v písaní práce podľa nového zadania.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Využite modely SlovakT5 a ByT5.
 | |
| 
 | |
| 
 | |
| Stretnutie 17.12.
 | |
| 
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq, 
 | |
| - Skript na prípravu dát - spustený. 
 | |
| - chyba pri spustení trénovacieho skriptu - chýba executable.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - ! Začnite pracovať na písomnej časti.
 | |
| - Nainštalujte si Marian NMT.
 | |
| - Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus. 
 | |
| - Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
 | |
| - Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce. 
 | |
| - Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho. 
 | |
| - Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce. 
 | |
| - Do práce doplnte odkazy na vedecké články. 
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Natrénujte model.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
 | |
| - Textová časť je neuspokojivá.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Naučte sa trénovať systém pre strojový preklad. 
 | |
| - Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. 
 | |
| - Natrénujte a vyhodnotte model.
 | |
| - Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
 | |
| 
 | |
| 
 | |
| 
 | |
| # Bakalárska práca 2024
 | |
| 
 | |
| Korekcia textu pomocou neurónových sietí
 | |
| 
 | |
| Spolupráca: Maroš Harahus, Andrii Pervashov
 | |
| 
 | |
| Zadanie BP:
 | |
| 
 | |
| 1. Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad. 
 | |
| 2. Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad. 
 | |
| 3. Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad  na opravu textu vo vybranej úlohe.
 | |
| 4. Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia. 
 | |
| 
 | |
| 
 | |
| Stretnutie 24.1.2024:
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Nie je posun.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Natrénujte jednoduchý ľubovoľný  model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
 | |
| - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
 | |
| - Pokračujte v písaní bakalárskej práce.
 | |
| 
 | |
| 
 | |
| Stretnutie 23.11.2023
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Prečítaný článok o Spelling a urobené poznámky
 | |
| - Ostatné úlohy: in progress. Treba pridať!!!
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
 | |
| - Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete  v bert-train repozitári.
 | |
| - Zlepšite tento systém. 
 | |
| - V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.
 | |
| 
 | |
| 
 | |
| Stretnutie 6.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Štúdium Python a neurónové siete.
 | |
| 
 | |
| Stretnutie 3.7.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| Existuje model Marian NMT rep korekciu. 
 | |
| 
 | |
| 
 | |
| Úloha:
 | |
| 
 | |
| - [-] Zistite ako funguje neurónová sieť typu Transformer.
 | |
| - [x] Nainštalujte si systém Anaconda a prejdite si knihu Dive  into Pyhton 3.
 | |
| - [ ] Zistite ako funguje strojový preklad.
 | |
| - [x] Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a *urobte si poznámky*.
 | |
| - [-] Prečítajte si knihu https://d2l.ai/ 
 | |
| - [ ] Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy.
 | |
| - [ ] Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad. 
 | |
| - [ ] Získajte prístup na školský server idoc.
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke.
 | |
| - Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu.
 | |
| - Podľa nich natrénujte a vyhodnotte model.
 | |
| - Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť.
 | |
| - Vypracujte webové demo.
 | |
| 
 |