forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
Tomáš Kuchárik
(študent KPI)
Diplomová práca 2021
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
Anotácia pomocou systému Prodigy
Diplomový projekt 1
Úlohy na semester:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
 - Vybrať prvú množinu článkov
 - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
 - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
 - Možno: natrénovať model z anglických alebo slovenských dát.
 
Úvodné stretnutie 6.3.2020.
Porozmýšľať:
- Ako vyberieme najlepšie články (PageRank?)
 - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
 
Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
 - Študovať odborné články na tému Question Answering
 - Oboznámiť sa s https://github.com/5hirish/adam_qas
 - Oboznámte sa s frameworkom Spacy a Prodigy.
 
Revízia 9.4.2020:
Nové úlohy:
- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
 - Pozrite si recepty v adresári "question_answer".
 - Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.