dmytro_ushatenko/pages/students/2016/tomas_kucharik/README.md

4.7 KiB

Tomáš Kuchárik

(študent KPI)

Diplomová práca 2021

Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka

Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"

Diplomový projekt 2

Stretnutie 25.9.2020

Urobené:

  • validačné rozhranie.
  • rozdelenie vstupného formulára na 5 častí pre ľahšie parsovanie napísaných otázok.

Úlohy na ďalšie stretnutie:

  • pripraviť rozhranie, kde sa anotuje práve jedna otázka naraz a ten istý paragraf sa zobrazí 5 krát.
  • stanoviť množinu metadát o anotovanej jednotke (názov článku, ktorý paragraf, poradie otázky?, kto to anotoval)
  • metadáta je potrebné doplniť do prípravných skriptov (ako JSON objekt s názvom "meta", príklad "ner2/01_selectparagraphs.py") do validačného aj otázkového rozhrania doplniť informácie o anotátorovi a o metadátach anotovanej jednotky.

Návrhy na zlepšenie (pre vedúceho):

  • v priebehu 3. týždňa spustiť skúšobnú anotačnú dávku- možno s 2 rozhraniami aby sa vyskúšalo.
  • pripraviť inštanciu Postgres Databázy (pre vedúceho).

Diplomový projekt 1

Úlohy na semester:

  • Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
  • Vybrať prvú množinu článkov
  • Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
  • Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
  • Možno: natrénovať model z anglických alebo slovenských dát.

Zásobník úloh:

  • Vytvorte skript pre transformáciu výsledkov anotácie odpovedí do formátu SQUAD 2:0
  • Oboznámte sa s relačnou databázovou schémou Prodigy.

Virtuálne stretnutie 6.7.

  • Pridaný Bootstrap.js do rozhrania aplikácie
  • Vytvorený Dockerfile, vznikol konflikt verzíí (treba opraviť).

Úloha: Zobraziť a validovať výsledky anotácie od anotátorov.

  • oddeliť validáciu od aplikácie..
  • Preštudovať "Review" alebo "Diff" rozhranie prodigy.
  • Zvážiť validáciu pomocou rovnakého alebo podobného receptu ako na anotáciu.
  • Zvážiť vytvorenie nového receptu pre validáciu. Paragraf, otázka, odpoveď, anotovala by sa korekcia?
  • Zvážiť modifikáciu "answer receptu" pre validáciu.
  • Modifikovať "question" recept na 5 vstupných polí. Pomôže to?
  • Vytvoriť východziu stránku pre anotátorov.

Virtuálne stretnutie 26.6.

Vytvorená aplikácia na analýzu anotácií Prodigy.

  • Pohľad na otázky a odpovede
  • Pohľad na konkrétny dataset - analýza sessionid
  • Pohľad na anotátora - koľko anotoval v akom datasete

Treba dorobiť:

  • Odovzdať cez GIT do repozitára annotation
  • Skrášliť
  • dorobiť Dockerfile
  • Pridať možnosť práce s ľubovoľnými datasetmi

Virtuálne stretnutie 14.5.

Urobené: modifikované skripty wikirank a getbestwiki,ly

Nová úloha: Vytvoriť skript pre analýzu DB schémy a zistenie kto anotoval koľko

  • naprv konzolový skript, potom web aplikácia napr. Flask,

Revízia 16.4:2020:

Nové úlohy:

  • Oboznámte sa s obsahom spoločného repozitára, stručná dokumentácia sa nachádza v súboroch README.md a v shell skriptoch.
  • Spustite si a vyskúšajte navrhnutú anotačnú schému pre vytváranie otázok a odpovedí.
  • Modifikujte skript wikirank.py a vyraďte z výpočtu stránky ktoré majú v názve číslo alebo dvojbodku. Výsledky PageRank uložte vo formáte JSONL
  • Vytvorte skript, ktorý vyberie stránky s najlepším PageRank a z nich vytvorí korpus vhodný na anotáciu otázok.
  • Dôsledne komunikujte Vaše výsledky alebo problémy na ktoré ste narazili.

Revízia 9.4.2020:

Nové úlohy:

  • Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
  • Pozrite si recepty v adresári "question_answer".
  • Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.

Úvodné stretnutie 6.3.2020.

Porozmýšľať:

  • Ako vyberieme najlepšie články (PageRank?)
  • Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.

Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie: