forked from KEMT/zpwiki
96 lines
3.7 KiB
Markdown
96 lines
3.7 KiB
Markdown
---
|
|
title: Eduard Matovka
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2024]
|
|
tag: [dialog,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2021
|
|
|
|
# Bakalárska práca 2024
|
|
|
|
Spolupráca [Vladimír Ferko](/students/2021/vladimir_ferko)
|
|
|
|
Nadväzuje [Martin Jancura](/students/2017/martin_jancura)
|
|
|
|
Názov: Slovenská konverzačná umelá inteligencia
|
|
|
|
Predbežný cieľ:
|
|
|
|
Natrénovať jazykový model pre jednoduchú slovenskú konverzáciu.
|
|
|
|
Predbežné úlohy:
|
|
|
|
- Oboznámte sa s existujúcimi modelmi pre generovanie slovenského jazyka.
|
|
- Pripravte korpus diskusií v slovenskom jazyku. Vyberte vhodný zdroj diskusí a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Napr. modrý koník, modrá strecha, íné diskusie.
|
|
- Natrénujte neurónovú sieť pre odpovedanie v diskusiách.
|
|
- Vytvorte webové demo.
|
|
|
|
Stretnutie 23.11.2023
|
|
|
|
Stav:
|
|
|
|
- Písomná práca pokračuje.
|
|
- Urobený skript na získanie dát. Skript využíva Praw na získanie dát z Reddit. Skript zatiaľ nepokrýva celú konverzáciu.
|
|
|
|
Úlohy:
|
|
|
|
- Dokončiť skript pre získavanie dát. Alebo nájsť dáta a skript ktorý funguje.
|
|
- Skúste začať trénovanie generatívneho modelu pomocou dostupných dát.
|
|
|
|
Stretnutie 26.10.2023
|
|
|
|
|
|
Stav:
|
|
|
|
- Podarilo sa spustiť pipeline pre generovanie pomocou Slovak T5 small.
|
|
|
|
Úlohy:
|
|
|
|
- [ ] Pokračovať v otvorených úlohách z minulého stretnutia.
|
|
- [x] Prečítajte si DP O. Megela.
|
|
- [x] V texte vysvetlite, čo je to model GPT, T5 a BART. Ku každému modelu nájdite *odborné články* a blogy, prečítajte si ich a napíšte si poznámky. Zapíšte si bibliografické údaje o článku. Odborný článok nájdete cez Google Scholar.
|
|
|
|
|
|
Stretnutie 12.10.2023
|
|
|
|
Stav:
|
|
|
|
- Pripravený skript na preklad pomoocu HF transformers a Helsinki NLP modelov aj s TKInter rozhraním.
|
|
- Písomná príprava podľa pokynov.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Dobrý model na generovanie Slov. jazyka je Slovak T5 Small.
|
|
- [ ] Pokračujte v teoretickej príprave podľa otvorených úloh - prehľad generatívnych jazykových modelov.
|
|
- [ ] Vytvorte dataset slovenských konverzácií. Vyberte zdroj dát, pomocou scrapera extrahujte dáta a upravte ich do vhodného formátu JSON. Stiahnite časť alebo celú webovú stránku do viacerých htmls súborov. Neposielajte veľa requestov za minútu. Dobrý nástorj na stianutie je wget. Napíšte skript, ktorý pomocu knižnice BeautifulSoup4 extrahuje diskusie a uloží ich do JSON.
|
|
- [ ] Druhá možnosť je použiť dáta z Reditu alebo Faceboku, podľa skriptov V. Ferko.
|
|
- [-] Generatívny model už natrénoval p. Omasta a p. Megela. Oboznámte sa s ich profilmi.
|
|
|
|
|
|
Stretnutie 1.8.2023
|
|
|
|
Stav:
|
|
|
|
- Oboznámenie sa s jazykom Python
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v štúdiu jazyka Python. Pozrite si nástroje [zo stránky Python](/topics/python). Pozrite si zdroje [zo stránky NLP ](/topics/nlp).
|
|
- Nainštalujte si prostredie Anaconda a knižnicu Huggingface transformers.
|
|
- Prečítajte si knihu https://d2l.ai/
|
|
- Zistite ako funguje neurónová sieť typu Transformer. https://jalammar.github.io/illustrated-transformer/
|
|
- Zistite, čo je to generatívny jazykový model. Napíšte na 3 strany čo ste sa dozvedeli o generatívnych jazykových modeloch. Použite aj článok https://arxiv.org/abs/1910.13461
|
|
- Napíšte jednoduchý skript na strojový preklad pomocou knižnice HF transformers.
|
|
- Oboznámte sa s https://github.com/karpathy/minGPT
|
|
|
|
Zásobník úloh:
|
|
|
|
- Zoberte korpus slovenských alebo iných diskusí a natrénujte neurónový model aby podľa neho odpovedal na zadané odázky.
|
|
- Zistite, ako sa vyhodnucujú generatívne modely pre úlohu konverzácie.
|
|
- Oboznámte sa s frameworkom https://python.langchain.com/docs/get_started/introduction.html
|
|
|
|
|