dmytro_ushatenko/pages/students/2021/nikita_bodnar/README.md

4.3 KiB

title published taxonomy
Nikita Bodnar true
category tag author
vp2023
bp2024
bp2025
chatbot
rasa
dialog
nlp
Daniel Hladek

rok začiatku štúdia: 2021

Bakalárska práca 2025

Stretnutie 17.12.

Stav:

  • Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
  • Skript na prípravu dát - spustený.
  • chyba pri spustení trénovacieho skriptu - chýba executable.

Úlohy:

  • ! Začnite pracovať na písomnej časti.
  • Nainštalujte si Marian NMT.
  • Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
  • Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
  • Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
  • Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
  • Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
  • Do práce doplnte odkazy na vedecké články.

Zásobník úloh:

  • Natrénujte model.

Stav:

  • Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
  • Textová časť je neuspokojivá.

Úlohy:

  • Naučte sa trénovať systém pre strojový preklad.
  • Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
  • Natrénujte a vyhodnotte model.
  • Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.

Bakalárska práca 2024

Korekcia textu pomocou neurónových sietí

Spolupráca: Maroš Harahus, Andrii Pervashov

Zadanie BP:

  1. Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad.
  2. Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad.
  3. Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad na opravu textu vo vybranej úlohe.
  4. Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia.

Stretnutie 24.1.2024:

Stav:

  • Nie je posun.

Úlohy:

  • Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
  • Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
  • Pokračujte v písaní bakalárskej práce.

Stretnutie 23.11.2023

Stav:

  • Prečítaný článok o Spelling a urobené poznámky
  • Ostatné úlohy: in progress. Treba pridať!!!

Úlohy:

  • Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
  • Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári.
  • Zlepšite tento systém.
  • V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.

Stretnutie 6.10.

Stav:

  • Štúdium Python a neurónové siete.

Stretnutie 3.7.

Stav:

Existuje model Marian NMT rep korekciu.

Úloha:

  • [-] Zistite ako funguje neurónová sieť typu Transformer.
  • Nainštalujte si systém Anaconda a prejdite si knihu Dive into Pyhton 3.
  • Zistite ako funguje strojový preklad.
  • Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a urobte si poznámky.
  • [-] Prečítajte si knihu https://d2l.ai/
  • Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy.
  • Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad.
  • Získajte prístup na školský server idoc.

Zásobník úloh:

  • Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke.
  • Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu.
  • Podľa nich natrénujte a vyhodnotte model.
  • Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť.
  • Vypracujte webové demo.