# Tomáš Kuchárik (študent KPI) ## Diplomový projekt 1 Úlohy na semester: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html - Vybrať prvú množinu článkov - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii - Možno: natrénovať model z anglických alebo slovenských dát. Úvodné stretnutie 6.3.2020. Porozmýšľať: - Ako vyberieme najlepšie články (PageRank?) - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. Úlohy pre vedúceho: - Vytvoriť spoločný repozitár Prodigy - Vytvoriť Wiki stránku a spoločný repozitár pre projekt Úlohy na ďalšie stretnutie: - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. - Študovať odborné články na tému Question Answering - Oboznámiť sa s https://github.com/5hirish/adam_qas - Oboznámte sa s frameworkom Spacy a Prodigy. ## Diplomová práca 2021 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)