2020-03-06 08:12:39 +00:00
# Tomáš Kuchárik
2020-03-06 09:00:12 +00:00
(študent KPI)
2020-04-09 09:01:53 +00:00
## Diplomová práca 2021
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
2020-06-26 11:27:47 +00:00
- Spolupráca na vedeckom projekte [Otázky a odpovede ](/topics/question )
- [Projektový repozitár ](https://git.kemt.fei.tuke.sk/dano/annotation )
2020-04-09 09:01:53 +00:00
2020-03-06 08:48:08 +00:00
## Diplomový projekt 1
Úlohy na semester:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
- Vybrať prvú množinu článkov
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
2020-03-06 09:00:12 +00:00
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
2020-03-06 08:48:08 +00:00
- Možno: natrénovať model z anglických alebo slovenských dát.
2020-06-26 07:31:53 +00:00
Zásobník úloh:
2020-03-06 08:48:08 +00:00
2020-06-26 07:31:53 +00:00
- Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu [SQUAD 2:0 ](https://rajpurkar.github.io/SQuAD-explorer/ )
- Oboznámte sa s relačnou databázovou schémou Prodigy.
2020-03-06 08:48:08 +00:00
2020-07-06 08:11:42 +00:00
Virtuálne stretnutie 6.7.
- Pridaný Bootstrap.js do rozhrania aplikácie
- Vytvorený Dockerfile, vznikol konflikt verzíí (treba opraviť).
Úloha: Zobraziť a validovať výsledky anotácie od anotátorov.
- oddeliť validáciu od aplikácie..
- Preštudovať "Review" alebo "Diff" rozhranie prodigy.
- Zvážiť validáciu pomocou rovnakého alebo podobného receptu ako na anotáciu.
- Zvážiť vytvorenie nového receptu pre validáciu. Paragraf, otázka, odpoveď, anotovala by sa korekcia?
2020-07-06 08:18:14 +00:00
- Zvážiť modifikáciu "answer receptu" pre validáciu.
2020-07-06 08:11:42 +00:00
- Modifikovať "question" recept na 5 vstupných polí. Pomôže to?
2020-07-06 08:18:14 +00:00
- Vytvoriť východziu stránku pre anotátorov.
2020-07-06 08:11:42 +00:00
2020-06-26 07:55:15 +00:00
Virtuálne stretnutie 26.6.
Vytvorená aplikácia na analýzu anotácií Prodigy.
- Pohľad na otázky a odpovede
- Pohľad na konkrétny dataset - analýza sessionid
- Pohľad na anotátora - koľko anotoval v akom datasete
Treba dorobiť:
- Odovzdať cez GIT do repozitára annotation
- Skrášliť
- dorobiť Dockerfile
- Pridať možnosť práce s ľubovoľnými datasetmi
2020-06-26 07:31:53 +00:00
Virtuálne stretnutie 14.5.
2020-03-06 08:48:08 +00:00
2020-06-26 07:31:53 +00:00
Urobené: modifikované skripty wikirank a getbestwiki,ly
2020-06-26 07:39:54 +00:00
2020-06-26 07:31:53 +00:00
Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko
- naprv konzolový skript, potom web aplikácia napr. Flask,
2020-03-06 08:48:08 +00:00
2020-06-26 07:31:53 +00:00
Revízia 16.4:2020:
2020-03-06 08:48:08 +00:00
2020-06-26 07:31:53 +00:00
- Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021
- Vytvorený prístup na server omega
Nové úlohy:
- Oboznámte sa s obsahom [spoločného repozitára ]( https://git.kemt.fei.tuke.sk/dano/annotation ), stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch.
- Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí.
- Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL
- Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok.
- Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili.
2020-03-06 08:48:08 +00:00
2020-03-06 08:12:39 +00:00
2020-04-09 09:01:53 +00:00
Revízia 9.4.2020:
2020-03-06 08:12:39 +00:00
2020-04-09 09:01:53 +00:00
Nové úlohy:
2020-03-06 08:12:39 +00:00
2020-04-09 09:01:53 +00:00
- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
- Pozrite si recepty v adresári "question_answer".
- Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.
2020-04-16 14:05:40 +00:00
2020-04-16 15:06:01 +00:00
2020-06-26 07:31:53 +00:00
Úvodné stretnutie 6.3.2020.
2020-04-16 15:06:01 +00:00
2020-06-26 07:31:53 +00:00
Porozmýšľať:
2020-04-16 15:24:08 +00:00
2020-06-26 07:31:53 +00:00
- Ako vyberieme najlepšie články (PageRank?)
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
2020-04-16 15:24:08 +00:00
2020-05-14 07:57:50 +00:00
2020-06-26 07:31:53 +00:00
Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
- Študovať odborné články na tému Question Answering
- Oboznámiť sa s https://github.com/5hirish/adam_qas
- Oboznámte sa s frameworkom Spacy a Prodigy.
2020-05-14 07:57:50 +00:00
2020-03-06 08:12:39 +00:00