dmytro_ushatenko/pages/students/2017/than_trung_thanh/README.md

69 lines
3.3 KiB
Markdown
Raw Normal View History

2020-10-01 13:15:25 +00:00
---
title: Than Trung Thanh
published: true
taxonomy:
2020-10-01 13:46:14 +00:00
category: [bp2021]
2020-10-01 13:15:25 +00:00
tag: [demo,nlp]
author: Daniel Hladek
---
2020-09-22 10:46:44 +00:00
# Than Trung Thanh
## Bakalársky projekt 2020
Rozpoznávanie pomenovaných entít v slovenskom jazyku
- Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy
- Práca na internom projekte [rozpoznávanie pomenovaných entít](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/named-entity).
- Využite [existujúci model](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
Predbežné zadanie:
- Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí.
- Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy .
- Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít.
- Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine.
- Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu.
Osobné stretnutie 23.9.2020
Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk.
Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.
Stretnutie 28.1.2020:
Stav:
- Preštudované Spacy a Prodigy.
- Pokus o spracovanie XML dump Wikipédia.
- Prečítané blogy.
- Urobená prezentácia.
- Natrénovaný model.
Úlohy:
- Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany.
- Schmitt, Xavier, et al. "A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate." 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). IEEE, 2019.
- Partalidou, Eleni, et al. "Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy." 2019 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE, 2019.
- Fernández-Pedauye, Julio, et al. "Enhancing the spaCy Named Entity Recognizer for Crowdsensing." Intelligent Environments 2020: Workshop Proceedings of the 16th International Conference on Intelligent Environments. Vol. 28. IOS Press, 2020.
- Nájdite si sami ďalšie články.
Úlohy do ďalšieho stretnutia:
- preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
- Nainštalujte si prostredie Anaconda.
- Nainštalujte si a spustite trénovanie [existujúceho modelu](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
- preštudujte materiály:
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy
Dalšie stretnutie odporúčam o 2 týždne.
2020-09-23 12:32:01 +00:00
Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.