forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
Tomáš Kuchárik
(študent KPI)
Diplomová práca 2021
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
Anotácia pomocou systému Prodigy
Diplomový projekt 1
Úlohy na semester:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
 - Vybrať prvú množinu článkov
 - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
 - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
 - Možno: natrénovať model z anglických alebo slovenských dát.
 
Zásobník úloh:
- Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu SQUAD 2:0
 - Oboznámte sa s relačnou databázovou schémou Prodigy.
 
Virtuálne stretnutie 14.5.
Urobené: modifikované skripty wikirank a getbestwiki,ly Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko
- naprv konzolový skript, potom web aplikácia napr. Flask,
 
Revízia 16.4:2020:
- Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021
 - Vytvorený prístup na server omega
 
Nové úlohy:
- Oboznámte sa s obsahom spoločného repozitára, stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch.
 - Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí.
 - Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL
 - Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok.
 - Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili.
 
Revízia 9.4.2020:
Nové úlohy:
- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
 - Pozrite si recepty v adresári "question_answer".
 - Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.
 
Úvodné stretnutie 6.3.2020.
Porozmýšľať:
- Ako vyberieme najlepšie články (PageRank?)
 - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
 
Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
 - Študovať odborné články na tému Question Answering
 - Oboznámiť sa s https://github.com/5hirish/adam_qas
 - Oboznámte sa s frameworkom Spacy a Prodigy.