Update 'pages/students/2021/eduard_matovka/README.md'

This commit is contained in:
dano 2023-10-12 11:13:11 +00:00
parent 98359fe3c5
commit 13660e80f1

View File

@ -38,7 +38,7 @@ Stav:
Úlohy:
- Dobrý model na generovanie Slov. jazyka je Slovak T5 Small.
- Pokračujte v teoretickej príprave podľa otvorených úloh.
- Pokračujte v teoretickej príprave podľa otvorených úloh - prehľad generatívnych jazykových modelov.
- Vytvorte dataset slovenských konverzácií. Vyberte zdroj dát, pomocou scrapera extrahujte dáta a upravte ich do vhodného formátu JSON. Stiahnite časť alebo celú webovú stránku do viacerých htmls súborov. Neposielajte veľa requestov za minútu. Dobrý nástorj na stianutie je wget. Napíšte skript, ktorý pomocu knižnice BeautifulSoup4 extrahuje diskusie a uloží ich do JSON.
- Druhá možnosť je použiť dáta z Reditu alebo Faceboku, podľa skriptov V. Ferko.
- Generatívny model už natrénoval p. Omasta a p. Megela. Oboznámte sa s ich profilmi.