forked from KEMT/zpwiki
132 lines
4.9 KiB
Markdown
132 lines
4.9 KiB
Markdown
# Tomáš Kuchárik
|
|
(študent KPI)
|
|
|
|
## Diplomová práca 2021
|
|
|
|
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
|
|
|
|
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
|
|
|
|
- Spolupráca na vedeckom projekte [Otázky a odpovede](/topics/question)
|
|
- [Projektový repozitár](https://git.kemt.fei.tuke.sk/dano/annotation)
|
|
|
|
|
|
## Diplomový projekt 2
|
|
|
|
Stretnutie 25.9.2020
|
|
|
|
Urobené:
|
|
- validačné rozhranie.
|
|
- rozdelenie vstupného formulára na 5 častí pre ľahšie parsovanie napísaných otázok.
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
- pripraviť rozhranie, kde sa anotuje práve jedna otázka naraz a ten istý paragraf sa zobrazí 5 krát.
|
|
- stanoviť množinu metadát o anotovanej jednotke (názov článku, ktorý paragraf, poradie otázky?, kto to anotoval)
|
|
- metadáta je potrebné doplniť do prípravných skriptov (ako JSON objekt s názvom "meta", príklad "ner2/01_selectparagraphs.py") do validačného aj otázkového rozhrania doplniť informácie o anotátorovi a o metadátach anotovanej jednotky.
|
|
- skúsiť začať písať draft diplomovej práce a skúsiť to zverejniť na http://conf.uni-obuda.hu/sami2021/paper.html
|
|
|
|
|
|
Návrhy na zlepšenie (pre vedúceho):
|
|
|
|
- v priebehu 3. týždňa spustiť skúšobnú anotačnú dávku- možno s 2 rozhraniami aby sa vyskúšalo.
|
|
- pripraviť inštanciu Postgres Databázy (pre vedúceho).
|
|
- písať komentáre ku commitom a do zdrojákov.
|
|
|
|
## Diplomový projekt 1
|
|
|
|
Úlohy na semester:
|
|
|
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
|
|
- Vybrať prvú množinu článkov
|
|
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
|
|
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
|
|
- Možno: natrénovať model z anglických alebo slovenských dát.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu [SQUAD 2:0](https://rajpurkar.github.io/SQuAD-explorer/)
|
|
- Oboznámte sa s relačnou databázovou schémou Prodigy.
|
|
|
|
Virtuálne stretnutie 6.7.
|
|
|
|
- Pridaný Bootstrap.js do rozhrania aplikácie
|
|
- Vytvorený Dockerfile, vznikol konflikt verzíí (treba opraviť).
|
|
|
|
Úloha: Zobraziť a validovať výsledky anotácie od anotátorov.
|
|
|
|
|
|
- oddeliť validáciu od aplikácie..
|
|
- Preštudovať "Review" alebo "Diff" rozhranie prodigy.
|
|
- Zvážiť validáciu pomocou rovnakého alebo podobného receptu ako na anotáciu.
|
|
- Zvážiť vytvorenie nového receptu pre validáciu. Paragraf, otázka, odpoveď, anotovala by sa korekcia?
|
|
- Zvážiť modifikáciu "answer receptu" pre validáciu.
|
|
- Modifikovať "question" recept na 5 vstupných polí. Pomôže to?
|
|
- Vytvoriť východziu stránku pre anotátorov.
|
|
|
|
|
|
|
|
Virtuálne stretnutie 26.6.
|
|
|
|
Vytvorená aplikácia na analýzu anotácií Prodigy.
|
|
- Pohľad na otázky a odpovede
|
|
- Pohľad na konkrétny dataset - analýza sessionid
|
|
- Pohľad na anotátora - koľko anotoval v akom datasete
|
|
|
|
Treba dorobiť:
|
|
|
|
- Odovzdať cez GIT do repozitára annotation
|
|
- Skrášliť
|
|
- dorobiť Dockerfile
|
|
- Pridať možnosť práce s ľubovoľnými datasetmi
|
|
|
|
Virtuálne stretnutie 14.5.
|
|
|
|
Urobené: modifikované skripty wikirank a getbestwiki,ly
|
|
|
|
Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko
|
|
- naprv konzolový skript, potom web aplikácia napr. Flask,
|
|
|
|
Revízia 16.4:2020:
|
|
|
|
- Predbežné výstupy (wikipedia parser) v repozitári https://git.kemt.fei.tuke.sk/tk634rv/dp2021
|
|
- Vytvorený prístup na server omega
|
|
|
|
Nové úlohy:
|
|
|
|
- Oboznámte sa s obsahom [spoločného repozitára]( https://git.kemt.fei.tuke.sk/dano/annotation), stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch.
|
|
- Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí.
|
|
- Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL
|
|
- Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok.
|
|
- Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili.
|
|
|
|
|
|
Revízia 9.4.2020:
|
|
|
|
Nové úlohy:
|
|
|
|
- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
|
|
- Pozrite si recepty v adresári "question_answer".
|
|
- Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.
|
|
|
|
|
|
|
|
Úvodné stretnutie 6.3.2020.
|
|
|
|
Porozmýšľať:
|
|
|
|
- Ako vyberieme najlepšie články (PageRank?)
|
|
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
|
|
|
|
|
|
Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
|
|
- Študovať odborné články na tému Question Answering
|
|
- Oboznámiť sa s https://github.com/5hirish/adam_qas
|
|
- Oboznámte sa s frameworkom Spacy a Prodigy.
|
|
|
|
|
|
|