From db7890b0614204f0b40d7a2ec1b9fb05de5bac37 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Oct 2023 11:05:30 +0000 Subject: [PATCH] Update 'pages/students/2021/eduard_matovka/README.md' --- pages/students/2021/eduard_matovka/README.md | 17 +++++++++++++++-- 1 file changed, 15 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index ff8080ab..48aeb164 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -23,11 +23,24 @@ Natrénovať jazykový model pre jednoduchú slovenskú konverzáciu. Predbežné úlohy: -- Oboznámte sa s existujúcimi modelmi pre generovanie slovenkého jazyka. +- [x] Oboznámte sa s existujúcimi modelmi pre generovanie slovenského jazyka. - Pripravte korpus diskusií v slovenskom jazyku. Vyberte vhodný zdroj diskusí a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Napr. modrý koník, modrá strecha, íné diskusie. -- Natrénujte neurónovú sieť pre odpovedanie v diskusiách. +- Natrénujte neurónovú sieť pre odpovedanie v diskusiách. +- Druhá možnosť je použiť dáta z REditu. - Vytvorte webové demo. +Stretnutie 12.10.2023 + +Stav: + +- Pripravený skript na preklad pomoocu HF transformers a Helsinki NLP modelov aj s TKInter rozhraním. +- Dobrý model na generovanie Slov. jazyka je Slovak T5 Small. +- Pokračujte v teoretickej príprave podľa otvorených úloh. +- Vytvorte dataset slovenských konverzácií. Vyberte zdroj dát, pomocou scrapera extrahujte dáta a upravte ich do vhodného formátu JSON. Stiahnite časť alebo celú webovú stránku do viacerých htmls súborov. Neposielajte veľa requestov za minútu. Dobrý nástorj na stianutie je wget. Napíšte skript, ktorý pomocu knižnice BeautifulSoup4 extrahuje diskusie a uloží ich do JSON. + +Úlohy: + + Stretnutie 1.8.2023 Stav: