# Tomáš Kuchárik (študent KPI) ## Diplomová práca 2021 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) ## Diplomový projekt 1 Úlohy na semester: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html - Vybrať prvú množinu článkov - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii - Možno: natrénovať model z anglických alebo slovenských dát. Úvodné stretnutie 6.3.2020. Porozmýšľať: - Ako vyberieme najlepšie články (PageRank?) - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation Úlohy na ďalšie stretnutie: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. - Študovať odborné články na tému Question Answering - Oboznámiť sa s https://github.com/5hirish/adam_qas - Oboznámte sa s frameworkom Spacy a Prodigy. Revízia 9.4.2020: Nové úlohy: - Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation - Pozrite si recepty v adresári "question_answer". - Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok. Revízia 16.4:2020: - Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021