49 lines
1.5 KiB
Markdown
49 lines
1.5 KiB
Markdown
# Tomáš Kuchárik
|
|
(študent KPI)
|
|
|
|
## Diplomová práca 2021
|
|
|
|
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
|
|
|
|
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
|
|
|
|
Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)
|
|
|
|
|
|
## Diplomový projekt 1
|
|
|
|
Úlohy na semester:
|
|
|
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
|
|
- Vybrať prvú množinu článkov
|
|
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
|
|
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
|
|
- Možno: natrénovať model z anglických alebo slovenských dát.
|
|
|
|
Úvodné stretnutie 6.3.2020.
|
|
|
|
Porozmýšľať:
|
|
|
|
- Ako vyberieme najlepšie články (PageRank?)
|
|
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
|
|
|
|
|
|
Vytvorený spoločný repozitár https://git.kemt.fei.tuke.sk/dano/annotation
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
|
|
- Študovať odborné články na tému Question Answering
|
|
- Oboznámiť sa s https://github.com/5hirish/adam_qas
|
|
- Oboznámte sa s frameworkom Spacy a Prodigy.
|
|
|
|
Revízia 9.4.2020:
|
|
|
|
Nové úlohy:
|
|
|
|
- Nainštalujte si anotačnú aplikáciu https://git.kemt.fei.tuke.sk/dano/annotation
|
|
- Pozrite si recepty v adresári "question_answer".
|
|
- Podľa vzoru vytvorte korpus paragrafov zo slovenskej Wikipédie vhodných na anotovanie otázok.
|
|
|
|
|