forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			137 lines
		
	
	
		
			4.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			137 lines
		
	
	
		
			4.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Andrii Pervashov
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [bp2025]
 | |
|     tag: [rag,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| 
 | |
| rok začiatku štúdia: 2022
 | |
| 
 | |
| 
 | |
| ## Bakalárska práca 2025
 | |
| 
 | |
| 
 | |
| 
 | |
| Návrh na tému:
 | |
| 
 | |
| Korekcia textu pomocou neurónových sietí
 | |
| 
 | |
| -    Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad.
 | |
| -    Aplikujte existujúci model na opravu textu vo vybraných úlohách.
 | |
| -    Vyhodnnotte model pomocou overovacej množiny.
 | |
| 
 | |
| Návrh na zadanie práce:
 | |
| 
 | |
| 1. Napíšte prehľad metód opravy textu pomocou neurónových modelov.
 | |
| 2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
 | |
| 3. Navrhnite experiment a vyhodnoťte kvalitu natrénovaného neurónového modelu.
 | |
| 4. Identifikujte možné zlepšenia navrhnutého modelu.
 | |
| 
 | |
| Stretnutie 14.2.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Pokračuje trénovanie.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Definujte problém ktorý riešite. 
 | |
| - Napíšte aj stručné poznámky z článku Survey of Automatic Spelling Correction.
 | |
| - Do teoretickej časti napíšte ako funguje model transformer, model T5.
 | |
| - Do praktickej časti napíšte o tom ako ste vytvorili dátovú množinu, ako ste navrhli, vyýkonali a vyhodnotili experimenty.
 | |
| - V texte používajte odkazy na odbornú literatúru. Články z google scholar.
 | |
| 
 | |
| Stretnutie 31.1.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Vyskúšané byt5, problémy s pamäťou, problémy s obmedzením dĺžky.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte s obmedzením ktoré dovolí GPU pamäť (128 znakov).ň
 | |
| - Píšte prácu. Výsledky zobrazte v tabuľke.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšajte iný model, napr. slovak-t5-base.
 | |
| 
 | |
| Stretnutie 19.12.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
 | |
| - Text prepísaný do Latex, WIP
 | |
| 
 | |
| 
 | |
| Stretnutie 22.11.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - WikiEdits nefunguje. 
 | |
| - Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
 | |
| - Na trénovanie sa používa mt5-large.
 | |
| - Konzultácia Ing. Harahusom PhD.
 | |
| - Trénovanie modelu.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v písaní podľa pokynov nižšie.
 | |
| - Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
 | |
| - Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
 | |
| - Pokračujte s "base modelmi".
 | |
| - Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.  
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| Stretnutie 3.10.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku.
 | |
| - Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť.
 | |
| 
 | |
| 
 | |
| Online update 4.9.2024
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Upravte skripty [WikiEdits](https://github.com/snukky/wikiedits/tree/master/wikiedits) na slovenský jazyk
 | |
| 
 | |
| Stav 14.8.2024:
 | |
| 
 | |
| - Nainštalovaná Anaconda, rozbehaný anglický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie.
 | |
| - Oboznámenie sa s materiálmi - d2dl aj Python.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv.
 | |
| - Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú.
 | |
| - Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky,
 | |
| - dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Natrénujte model pre opravu textu v slovenskom jazyku.
 | |
| - Pripravte webové demo.
 | |
| 
 | |
| Stretnutie 26.4. 2024
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Nainštalujte si prostredie Anaconda. 
 | |
| - Prejdite si knihu Dive Deep into Python 3.
 | |
| - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
 | |
| - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
 | |
| - Zistite ako funguje tento model https://huggingface.co/docs/transformers/en/model_doc/byt5
 | |
| - Napíšte si poznámky o tom ako funguje model Transformers a ako funguje model T5.
 | |
| 
 |