--- title: Than Trung Thanh published: true taxonomy: category: [bp2021] tag: [demo,nlp] author: Daniel Hladek --- # Than Trung Thanh ## Bakalársky projekt 2020 Rozpoznávanie pomenovaných entít v slovenskom jazyku - Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy - Práca na internom projekte [rozpoznávanie pomenovaných entít](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/named-entity). - Využite [existujúci model](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel). Podobná práca: - [Jakub Maruniak](/students/2016/jakub_maruniak) Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk. Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania. Predbežné zadanie: - Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. - Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy . - Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít. - Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine. Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu. - Navrhnite spôsoby pre ďalšie zlepšenie presnosti modelu pre rozpoznávanie pomenovaných entít. Stretnutie 8.2.2020: Stav: - Anotovaných 1000 anotácií (3 dni). - Prečítané články a spracovaný rešerš na 3,5 strany. Stretnutie 28.1.2020: Stav: - Preštudované Spacy a Prodigy. - Pokus o spracovanie XML dump Wikipédia. - Prečítané blogy. - Urobená prezentácia. - Natrénovaný model. Úlohy: - Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany. - Schmitt, Xavier, et al. "A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate." 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). IEEE, 2019. - Partalidou, Eleni, et al. "Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy." 2019 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE, 2019. - Fernández-Pedauye, Julio, et al. "Enhancing the spaCy Named Entity Recognizer for Crowdsensing." Intelligent Environments 2020: Workshop Proceedings of the 16th International Conference on Intelligent Environments. Vol. 28. IOS Press, 2020. - Nájdite si sami ďalšie články. Osobné stretnutie 23.9.2020 Úlohy do ďalšieho stretnutia: - preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition". - Nainštalujte si prostredie Anaconda. - Nainštalujte si a spustite trénovanie [existujúceho modelu](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel). - preštudujte materiály: - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python - https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy Dalšie stretnutie odporúčam o 2 týždne. Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.