# Tomáš Kuchárik
(študent KPI)

## Diplomová práca 2021

Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka

Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"

Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)


## Diplomový projekt 1

Úlohy na semester:

- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
- Vybrať prvú množinu článkov
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
- Možno: natrénovať model z anglických alebo slovenských dát.

Zásobník úloh:

- Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu [SQUAD 2:0](https://rajpurkar.github.io/SQuAD-explorer/)
- Oboznámte sa s relačnou databázovou schémou Prodigy.


Virtuálne stretnutie 26.6.

Vytvorená aplikácia na analýzu anotácií Prodigy.
- Pohľad na otázky a odpovede
- Pohľad na konkrétny dataset - analýza sessionid
- Pohľad na anotátora - koľko anotoval v akom datasete 

Treba dorobiť:

- Odovzdať cez GIT do repozitára annotation
- Skrášliť
- dorobiť Dockerfile
- Pridať možnosť práce s ľubovoľnými datasetmi

Virtuálne stretnutie 14.5.

Urobené: modifikované skripty wikirank a getbestwiki,ly

Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko
- naprv konzolový skript, potom web aplikácia napr. Flask, 

Revízia 16.4:2020:

- Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021
- Vytvorený prístup na server omega

Nové úlohy:

- Oboznámte sa s obsahom [spoločného repozitára]( https://git.kemt.fei.tuke.sk/dano/annotation), stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch.
- Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí.
- Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL
- Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok.
- Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili.


Revízia 9.4.2020:

Nové úlohy:

- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
- Pozrite si recepty v adresári "question_answer".
- Podľa vzoru vytvorte korpus paragrafov zo slovenskej  Wikipédie vhodných na anotovanie otázok.



Úvodné stretnutie 6.3.2020.

Porozmýšľať:

- Ako vyberieme najlepšie články (PageRank?)
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. 


Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
- Študovať odborné články na tému Question Answering
- Oboznámiť sa s https://github.com/5hirish/adam_qas
- Oboznámte sa s frameworkom Spacy a Prodigy.