forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			131 lines
		
	
	
		
			5.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			131 lines
		
	
	
		
			5.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Serhii Yemets
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [bp2025]
 | |
|     tag: [ner,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| 
 | |
| rok začiatku štúdia: 2022
 | |
| 
 | |
| # Bakalárska práca 2025
 | |
| 
 | |
| Cieľ:
 | |
| 
 | |
| - Zlepšenie slovenského modelu  pre rozpoznávanie pomenovaných entít.
 | |
| 
 | |
| Do budúcnosti: 
 | |
| 
 | |
| - Vypracovanie webového dema
 | |
| - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
 | |
| 
 | |
| Návrh na zadanie bakalárskej práce:
 | |
| 
 | |
| 1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
 | |
| 2. Napíšte prehľad existujúcich dátových množín, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
 | |
| 3. Vyberte vhodný model, dátovú množinu a natrénujte  a vyhodnoťte model.
 | |
| 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
 | |
| 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.
 | |
| 
 | |
| Stretnutie 28.3.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - spojené datasety: wikiann a conll2003.  Pomohlo to. Dosiahli sme 0.9 na SLovak BERT.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Skúste zlepšiť model.
 | |
| - Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol.
 | |
| - Definujte a zlepšite štruktúru práce.  Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.  
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server. 
 | |
| 
 | |
| Stretnutie 21.3.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA.
 | |
| - Použitie SlovakBERT a WikiANN dataset.
 | |
| - Urobené Web DEMO. 
 | |
| - Text nie je pokrok.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT.
 | |
| - Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej.
 | |
| - Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta,  Výsledky dajte do tabuľky. Opíšte postup experimentov.
 | |
| - Pracujte na texte, hlavne na praktickej časti.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B.
 | |
| 
 | |
| Stretnutie 20.12.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Splnené úlohy z posledného stetnutia
 | |
| - Text je v dobrom stave, treba ešte použiť šablónu.
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pripravte si prezentáciu.
 | |
| - Textu dajte na moodle, skripty dajte na git.
 | |
| - Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články.
 | |
| - Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Zostavte webové demo
 | |
| - Pripravte experiment pre ukrajinský a ruský jazyk.
 | |
| - Priprave Dockerfile pre Vaše demo
 | |
| - Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
 | |
| 
 | |
| 
 | |
| Stretnutie 30.10.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Napísané texty o NE. 
 | |
| - Vyskúšané a naštudované veci podľa pokynov,
 | |
| - Začiatok práce na webovom deme.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
 | |
| - [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
 | |
| - [x] Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
 | |
| - [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
 | |
| - Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. 
 | |
| - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
 | |
| - Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte. 
 | |
| 
 | |
| 
 | |
| Stretnutie 20.5.20204
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
 | |
| - [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
 | |
| - [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
 | |
| - [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. 
 | |
| - [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
 | |
| - Natrénujte model Huggingface pre NER
 | |
| 
 | |
| 
 |