# Tomáš Kuchárik (študent KPI) ## Diplomová práca 2021 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" Spolupráca na vedeckom projekte [Otázky a odpovede](/topics/question) ## Diplomový projekt 1 Úlohy na semester: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html - Vybrať prvú množinu článkov - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii - Možno: natrénovať model z anglických alebo slovenských dát. Zásobník úloh: - Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu [SQUAD 2:0](https://rajpurkar.github.io/SQuAD-explorer/) - Oboznámte sa s relačnou databázovou schémou Prodigy. Virtuálne stretnutie 26.6. Vytvorená aplikácia na analýzu anotácií Prodigy. - Pohľad na otázky a odpovede - Pohľad na konkrétny dataset - analýza sessionid - Pohľad na anotátora - koľko anotoval v akom datasete Treba dorobiť: - Odovzdať cez GIT do repozitára annotation - Skrášliť - dorobiť Dockerfile - Pridať možnosť práce s ľubovoľnými datasetmi Virtuálne stretnutie 14.5. Urobené: modifikované skripty wikirank a getbestwiki,ly Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko - naprv konzolový skript, potom web aplikácia napr. Flask, Revízia 16.4:2020: - Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021 - Vytvorený prístup na server omega Nové úlohy: - Oboznámte sa s obsahom [spoločného repozitára]( https://git.kemt.fei.tuke.sk/dano/annotation), stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch. - Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí. - Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL - Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok. - Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili. Revízia 9.4.2020: Nové úlohy: - Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation - Pozrite si recepty v adresári "question_answer". - Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok. Úvodné stretnutie 6.3.2020. Porozmýšľať: - Ako vyberieme najlepšie články (PageRank?) - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation Úlohy na ďalšie stretnutie: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. - Študovať odborné články na tému Question Answering - Oboznámiť sa s https://github.com/5hirish/adam_qas - Oboznámte sa s frameworkom Spacy a Prodigy.