zpwiki/pages/students/2021/eduard_matovka/README.md

3.0 KiB

title published taxonomy
Eduard Matovka true
category tag author
bp2024
dialog
nlp
Daniel Hladek

rok začiatku štúdia: 2021

Bakalárska práca 2024

Spolupráca Vladimír Ferko

Nadväzuje Martin Jancura

Názov: Slovenská konverzačná umelá inteligencia

Predbežný cieľ:

Natrénovať jazykový model pre jednoduchú slovenskú konverzáciu.

Predbežné úlohy:

  • Oboznámte sa s existujúcimi modelmi pre generovanie slovenského jazyka.
  • Pripravte korpus diskusií v slovenskom jazyku. Vyberte vhodný zdroj diskusí a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Napr. modrý koník, modrá strecha, íné diskusie.
  • Natrénujte neurónovú sieť pre odpovedanie v diskusiách.
  • Vytvorte webové demo.

Stretnutie 26.10.2023

Stav:

  • Podarilo sa spustiť pipeline pre generovanie pomocou Slovak T5 small.

Úlohy:

  • Pokračovať v otvorených úlohách z minulého stretnutia.
  • Prečítajte si DP O. Megela.

Stretnutie 12.10.2023

Stav:

  • Pripravený skript na preklad pomoocu HF transformers a Helsinki NLP modelov aj s TKInter rozhraním.
  • Písomná príprava podľa pokynov.

Úlohy:

  • Dobrý model na generovanie Slov. jazyka je Slovak T5 Small.
  • Pokračujte v teoretickej príprave podľa otvorených úloh - prehľad generatívnych jazykových modelov.
  • Vytvorte dataset slovenských konverzácií. Vyberte zdroj dát, pomocou scrapera extrahujte dáta a upravte ich do vhodného formátu JSON. Stiahnite časť alebo celú webovú stránku do viacerých htmls súborov. Neposielajte veľa requestov za minútu. Dobrý nástorj na stianutie je wget. Napíšte skript, ktorý pomocu knižnice BeautifulSoup4 extrahuje diskusie a uloží ich do JSON.
  • Druhá možnosť je použiť dáta z Reditu alebo Faceboku, podľa skriptov V. Ferko.
  • [-] Generatívny model už natrénoval p. Omasta a p. Megela. Oboznámte sa s ich profilmi.

Stretnutie 1.8.2023

Stav:

  • Oboznámenie sa s jazykom Python

Úlohy:

Zásobník úloh: