forked from KEMT/zpwiki
		
	| .. | ||
| timovy_projekt | ||
| README.md | ||
Jakub Maruniak
Rok začiatku štúdia: 2016
Diplomový projekt 1 2020
Úlohy na semester:
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
 - Vybrať a pripraviť vhodné dáta na anotáciu
 - Anotovať sadu dát
 - Natrénovať a vyhodnotiť model
 
Stretnutie 9.3.2020:
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Oboznámte sa s so systémom Docker
 - Rozbehajte si anotáciu z repozitára
 - Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
 
Návrh možných entít na anotáciu:
- OSOBA
 - MIESTO alebo politická geografická entita
 - ORGANIZACIA
 - PRODUKT
 - INE
 
Tímový projekt 2019
Anotácia textových dát
Úlohy tímového projektu:
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 
Písomná práca: Rešerš
Návrh na zadanie DP:
- Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
 - Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
 - Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
 - Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
 
Návrh na názov DP:
Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu
Spolupráca s projektom: