--- title: Eduard Matovka published: true taxonomy: category: [bp2024] tag: [dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 # Bakalárska práca 2024 Spolupráca [Vladimír Ferko](/students/2021/vladimir_ferko) Nadväzuje [Martin Jancura](/students/2017/martin_jancura) Názov: Slovenská konverzačná umelá inteligencia Predbežný cieľ: Natrénovať jazykový model pre jednoduchú slovenskú konverzáciu. Predbežné úlohy: - Oboznámte sa s existujúcimi modelmi pre generovanie slovenkého jazyka. - Pripravte korpus diskusií v slovenskom jazyku. Vyberte vhodný zdroj diskusí a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Napr. modrý koník, modrá strecha, íné diskusie. - Natrénujte neurónovú sieť pre odpovedanie v diskusiách. - Vytvorte webové demo. Stretnutie 1.8.2023 Stav: - Oboznámenie sa s jazykom Python Úlohy: - Pokračujte v štúdiu jazyka Python. Pozrite si nástroje [zo stránky Python](/topics/python). Pozrite si zdroje [zo stránky NLP ](/topics/nlp). - Nainštalujte si prostredie Anaconda a knižnicu Huggingface transformers. - Prečítajte si knihu https://d2l.ai/ - Zistite ako funguje neurónová sieť typu Transformer. https://jalammar.github.io/illustrated-transformer/ - Zistite, čo je to generatívny jazykový model. Napíšte na 3 strany čo ste sa dozvedeli o generatívnych jazykových modeloch. Použite aj článok https://arxiv.org/abs/1910.13461 - Napíšte jednoduchý skript na strojový preklad pomocou knižnice HF transformers. - Oboznámte sa s https://github.com/karpathy/minGPT Zásobník úloh: - Zoberte korpus slovenských alebo iných diskusí a natrénujte neurónový model aby podľa neho odpovedal na zadané odázky. - Zistite, ako sa vyhodnucujú generatívne modely pre úlohu konverzácie. - Oboznámte sa s frameworkom https://python.langchain.com/docs/get_started/introduction.html