forked from KEMT/zpwiki
95 lines
3.8 KiB
Markdown
95 lines
3.8 KiB
Markdown
---
|
|
title: Serhii Yemets
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2025]
|
|
tag: [ner,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2022
|
|
|
|
# Bakalárska práca 2025
|
|
|
|
Cieľ:
|
|
|
|
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
|
|
|
|
Do budúcnosti:
|
|
|
|
- Vypracovanie webového dema
|
|
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
|
|
|
|
Návrh na zadanie bakalárskej práce:
|
|
|
|
1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
|
|
2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
|
|
3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model.
|
|
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
|
|
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.
|
|
|
|
Stretnutie 20.12.2024
|
|
|
|
Stav:
|
|
|
|
- Splnené úlohy z posledného stetnutia
|
|
- Text je v dobrom stave, treba ešte použiť šablónu.
|
|
|
|
|
|
Úlohy:
|
|
|
|
- Pripravte si prezentáciu.
|
|
- Textu dajte na moodle, skripty dajte na git.
|
|
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
|
|
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- Zostavte webové demo
|
|
- Pripravte experiment pre ukrajinský a ruský jazyk.
|
|
- Priprave Dockerfile pre Vaše demo
|
|
- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
|
|
|
|
|
|
Stretnutie 30.10.2024
|
|
|
|
Stav:
|
|
|
|
- Napísané texty o NE.
|
|
- Vyskúšané a naštudované veci podľa pokynov,
|
|
- Začiatok práce na webovom deme.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
|
|
- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
|
|
- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
|
|
- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
|
|
|
|
Zásobník úloh:
|
|
|
|
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
|
|
- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
|
|
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
|
|
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.
|
|
|
|
|
|
Stretnutie 20.5.20204
|
|
|
|
Úlohy:
|
|
|
|
- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
|
|
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
|
|
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
|
|
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
|
|
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
|
|
|
|
Zásobník úloh:
|
|
|
|
- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
|
|
- Natrénujte model Huggingface pre NER
|
|
|
|
|