zpwiki/pages/students/2016/tomas_kucharik/README.md

1.6 KiB

Tomáš Kuchárik

(študent KPI)

Diplomová práca 2021

Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka

Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"

Anotácia pomocou systému Prodigy

Diplomový projekt 1

Úlohy na semester:

  • Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
  • Vybrať prvú množinu článkov
  • Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
  • Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
  • Možno: natrénovať model z anglických alebo slovenských dát.

Úvodné stretnutie 6.3.2020.

Porozmýšľať:

  • Ako vyberieme najlepšie články (PageRank?)
  • Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.

Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

Revízia 9.4.2020:

Nové úlohy:

  • Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
  • Pozrite si recepty v adresári "question_answer".
  • Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.

Revízia 16.4:2020: