# Tomáš Kuchárik (študent KPI) ## Diplomová práca 2021 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) ## Diplomový projekt 1 Úlohy na semester: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html - Vybrať prvú množinu článkov - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii - Možno: natrénovať model z anglických alebo slovenských dát. Úvodné stretnutie 6.3.2020. Porozmýšľať: - Ako vyberieme najlepšie články (PageRank?) - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation Úlohy na ďalšie stretnutie: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. - Študovať odborné články na tému Question Answering - Oboznámiť sa s https://github.com/5hirish/adam_qas - Oboznámte sa s frameworkom Spacy a Prodigy. Revízia 9.4.2020: Nové úlohy: - Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation - Pozrite si recepty v adresári "question_answer". - Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok. Revízia 16.4:2020: - Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021 - Vytvorený prístup na server omega Nové úlohy: - Oboznámte sa s obsahom [spoločného repozitára]( https://git.kemt.fei.tuke.sk/dano/annotation), stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch. - Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí. - Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL - Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok. - Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili. Zásobník úloh: - Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu [SQUAD 2:0](https://rajpurkar.github.io/SQuAD-explorer/) - Oboznámte sa s relačnou databázovou schémou Prodigy.