forked from KEMT/zpwiki
104 lines
3.4 KiB
Markdown
104 lines
3.4 KiB
Markdown
---
|
|
title: Nikita Bodnar
|
|
published: true
|
|
taxonomy:
|
|
category: [vp2023,bp2024,bp2025]
|
|
tag: [chatbot,rasa,dialog,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2021
|
|
|
|
# Bakalárska práca 2025
|
|
|
|
Stav:
|
|
|
|
- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
|
|
- Textová časť je neuspokojivá.
|
|
|
|
Úlohy:
|
|
|
|
- Naučte sa trénovať systém pre strojový preklad.
|
|
- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
|
|
- Natrénujte a vyhodnotte model.
|
|
- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
|
|
|
|
|
|
|
|
# Bakalárska práca 2024
|
|
|
|
Korekcia textu pomocou neurónových sietí
|
|
|
|
Spolupráca: Maroš Harahus, Andrii Pervashov
|
|
|
|
Zadanie BP:
|
|
|
|
1. Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad.
|
|
2. Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad.
|
|
3. Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad na opravu textu vo vybranej úlohe.
|
|
4. Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia.
|
|
|
|
|
|
Stretnutie 24.1.2024:
|
|
|
|
Stav:
|
|
|
|
- Nie je posun.
|
|
|
|
Úlohy:
|
|
|
|
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
|
|
- Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
|
|
- Pokračujte v písaní bakalárskej práce.
|
|
|
|
|
|
Stretnutie 23.11.2023
|
|
|
|
Stav:
|
|
|
|
- Prečítaný článok o Spelling a urobené poznámky
|
|
- Ostatné úlohy: in progress. Treba pridať!!!
|
|
|
|
Úlohy:
|
|
|
|
- Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
|
|
- Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári.
|
|
- Zlepšite tento systém.
|
|
- V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.
|
|
|
|
|
|
Stretnutie 6.10.
|
|
|
|
Stav:
|
|
|
|
- Štúdium Python a neurónové siete.
|
|
|
|
Stretnutie 3.7.
|
|
|
|
Stav:
|
|
|
|
Existuje model Marian NMT rep korekciu.
|
|
|
|
|
|
Úloha:
|
|
|
|
- [-] Zistite ako funguje neurónová sieť typu Transformer.
|
|
- [x] Nainštalujte si systém Anaconda a prejdite si knihu Dive into Pyhton 3.
|
|
- [ ] Zistite ako funguje strojový preklad.
|
|
- [x] Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a *urobte si poznámky*.
|
|
- [-] Prečítajte si knihu https://d2l.ai/
|
|
- [ ] Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy.
|
|
- [ ] Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad.
|
|
- [ ] Získajte prístup na školský server idoc.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke.
|
|
- Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu.
|
|
- Podľa nich natrénujte a vyhodnotte model.
|
|
- Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť.
|
|
- Vypracujte webové demo.
|
|
|