forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Than Trung Thanh | true | 
  | 
Than Trung Thanh
Bakalársky projekt 2020
Rozpoznávanie pomenovaných entít v slovenskom jazyku
- Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy
 - Práca na internom projekte rozpoznávanie pomenovaných entít.
 - Využite existujúci model.
 
Podobná práca:
Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk. Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.
Predbežné zadanie:
- Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí.
 - Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy .
 - Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít.
 - Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine. Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu.
 - Navrhnite spôsoby pre ďalšie zlepšenie presnosti modelu pre rozpoznávanie pomenovaných entít.
 
Stretnutie 8.2.2020:
Stav:
- Anotovaných 1000 anotácií (3 dni).
 - Prečítané články a spracovaný rešerš na 3,5 strany.
 
Do ďalšieho stretnutia:
- Pracovať na zlepšení písomného prejavu.
 - Nájsť odborné články z dokumentácie Spacy, ku každému napísať bibliografický odkaz a čo ste sa dozvedeli do prehľadu.
 - Prepracovať rešerš kompletne - odstrániť sémantické aj gramatické chyby.
 
Stretnutie 28.1.2020:
Stav:
- Preštudované Spacy a Prodigy.
 - Pokus o spracovanie XML dump Wikipédia.
 - Prečítané blogy.
 - Urobená prezentácia.
 - Natrénovaný model.
 
Úlohy:
- Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany.
 - Schmitt, Xavier, et al. "A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate." 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). IEEE, 2019.
 - Partalidou, Eleni, et al. "Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy." 2019 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE, 2019.
 - Fernández-Pedauye, Julio, et al. "Enhancing the spaCy Named Entity Recognizer for Crowdsensing." Intelligent Environments 2020: Workshop Proceedings of the 16th International Conference on Intelligent Environments. Vol. 28. IOS Press, 2020.
 - Nájdite si sami ďalšie články.
 
Osobné stretnutie 23.9.2020
Úlohy do ďalšieho stretnutia:
- preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
 - Nainštalujte si prostredie Anaconda.
 - Nainštalujte si a spustite trénovanie existujúceho modelu.
 - preštudujte materiály:
 
Dalšie stretnutie odporúčam o 2 týždne.
Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.