zpwiki/pages/students/2022/serhii_yemets/README.md

3.8 KiB

title published taxonomy
Serhii Yemets true
category tag author
bp2025
ner
nlp
Daniel Hladek

rok začiatku štúdia: 2022

Bakalárska práca 2025

Cieľ:

  • Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.

Do budúcnosti:

  • Vypracovanie webového dema
  • Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

Návrh na zadanie bakalárskej práce:

  1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
  2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
  3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model.
  4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
  5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.

Stretnutie 20.12.2024

Stav:

  • Splnené úlohy z posledného stetnutia
  • Text je v dobrom stave, treba ešte použiť šablónu.

Úlohy:

  • Pripravte si prezentáciu.
  • Textu dajte na moodle, skripty dajte na git.
  • Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
  • Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.

Zásobník úloh:

  • Zostavte webové demo
  • Pripravte experiment pre ukrajinský a ruský jazyk.
  • Priprave Dockerfile pre Vaše demo
  • Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.

Stretnutie 30.10.2024

Stav:

  • Napísané texty o NE.
  • Vyskúšané a naštudované veci podľa pokynov,
  • Začiatok práce na webovom deme.

Úlohy:

  • Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
  • Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
  • Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
  • Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification

Zásobník úloh:

  • Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
  • Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
  • Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
  • Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.

Stretnutie 20.5.20204

Úlohy:

  • Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
  • Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
  • Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
  • Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
  • Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources

Zásobník úloh:

  • Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
  • Natrénujte model Huggingface pre NER