forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			85 lines
		
	
	
		
			4.1 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			85 lines
		
	
	
		
			4.1 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Than Trung Thanh 
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [bp2021]
 | |
|     tag: [demo,nlp, named entity, ne, spacy, prodigy, anotation]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| # Than Trung Thanh 
 | |
| 
 | |
| ## Bakalársky projekt 2020
 | |
| 
 | |
| Rozpoznávanie pomenovaných entít v slovenskom jazyku pomocou nástrojov Spacy a Prodigy
 | |
| 
 | |
| - Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy
 | |
| - Práca na internom projekte [rozpoznávanie pomenovaných entít](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/named-entity).
 | |
| - Využite [existujúci model](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
 | |
| 
 | |
| Podobná práca:
 | |
| 
 | |
| - [Jakub Maruniak](/students/2016/jakub_maruniak)
 | |
| 
 | |
| Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk.
 | |
| Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.
 | |
| 
 | |
| Predbežné zadanie:
 | |
| 
 | |
| - Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. 
 | |
| - Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy . 
 | |
| - Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít.
 | |
| - Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine. Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu.
 | |
| - Navrhnite spôsoby pre ďalšie zlepšenie presnosti modelu pre rozpoznávanie pomenovaných entít.
 | |
| 
 | |
| 
 | |
| Stretnutie 8.2.2020:
 | |
| 
 | |
| Stav:
 | |
| - Anotovaných 1000 anotácií (3 dni).
 | |
| - Prečítané články a spracovaný rešerš na 3,5 strany.
 | |
| 
 | |
| Do ďalšieho stretnutia:
 | |
| 
 | |
| - Pracovať na zlepšení písomného prejavu.
 | |
| - Nájsť odborné články z dokumentácie Spacy, ku každému napísať bibliografický odkaz a čo ste sa dozvedeli do prehľadu.
 | |
| - Prepracovať rešerš kompletne - odstrániť sémantické aj gramatické chyby.
 | |
| - Prečítajte si a napíšte poznámky z: Li, Jing, et al. "A survey on deep learning for named entity recognition." IEEE Transactions on Knowledge and Data Engineering (2020).
 | |
| 
 | |
| Stretnutie 28.1.2020:
 | |
| 
 | |
| Stav: 
 | |
| - Preštudované Spacy a Prodigy.
 | |
| - Pokus o spracovanie XML dump Wikipédia.
 | |
| - Prečítané blogy.
 | |
| - Urobená prezentácia.
 | |
| - Natrénovaný model.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany.
 | |
| - Schmitt, Xavier, et al. "A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate." 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). IEEE, 2019.
 | |
| - Partalidou, Eleni, et al. "Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy." 2019 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE, 2019.
 | |
| - Fernández-Pedauye, Julio, et al. "Enhancing the spaCy Named Entity Recognizer for Crowdsensing." Intelligent Environments 2020: Workshop Proceedings of the 16th International Conference on Intelligent Environments. Vol. 28. IOS Press, 2020.
 | |
| - Nájdite si sami ďalšie články.
 | |
| 
 | |
| Osobné stretnutie 23.9.2020
 | |
| 
 | |
| Úlohy do ďalšieho stretnutia:
 | |
| 
 | |
| - preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
 | |
| - Nainštalujte si prostredie Anaconda.
 | |
| - Nainštalujte si a spustite trénovanie [existujúceho modelu](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
 | |
| - preštudujte materiály:
 | |
|     - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp
 | |
|     - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python
 | |
|     - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy
 | |
| 
 | |
| Dalšie stretnutie odporúčam o 2 týždne.
 | |
| 
 | |
| Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 |