dmytro_ushatenko/pages/students/2022/serhii_yemets/README.md

---
title: Serhii Yemets
published: true
taxonomy:
    category: [bp2025]
    tag: [ner,nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2022

# Bakalárska práca 2025

Cieľ:

- Zlepšenie slovenského modelu  pre rozpoznávanie pomenovaných entít.

Do budúcnosti: 

- Vypracovanie webového dema
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

Návrh na zadanie bakalárskej práce:

1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
3. Vyberte vhodný model a dátovú množinu a natrénujte  a vyhodnotte model.
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.

Stretnutie 20.12.2024

Stav:

- Splnené úlohy z posledného stetnutia
- Text je v dobrom stave, treba ešte použiť šablónu.


Úlohy:

- Pripravte si prezentáciu.
- Textu dajte na moodle, skripty dajte na git.
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.


Zásobník úloh:

- Zostavte webové demo
- Pripravte experiment pre ukrajinský a ruský jazyk.
- Priprave Dockerfile pre Vaše demo
- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.


Stretnutie 30.10.2024

Stav:

- Napísané texty o NE. 
- Vyskúšané a naštudované veci podľa pokynov,
- Začiatok práce na webovom deme.

Úlohy:

- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- [x] Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification

Zásobník úloh:

- Natrénujte nový Spacy  NER model ktorý by bol lepší ako pôvodný.
- Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. 
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. 


Stretnutie 20.5.20204

Úlohy:

- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. 
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources

Zásobník úloh:

- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
- Natrénujte model Huggingface pre NER
zz 2024-05-16 09:33:37 +00:00			`---`
			`title: Serhii Yemets`
			`published: true`
			`taxonomy:`
			`category: [bp2025]`
			`tag: [ner,nlp]`
			`author: Daniel Hladek`
			`---`


			`rok začiatku štúdia: 2022`

Update pages/students/2022/serhii_yemets/README.md 2024-10-30 12:04:03 +00:00			`# Bakalárska práca 2025`
zz 2024-05-16 09:33:37 +00:00
			`Cieľ:`

			`- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.`

			`Do budúcnosti:`

			`- Vypracovanie webového dema`
			`- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).`

Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:55:02 +00:00			`Návrh na zadanie bakalárskej práce:`

			`1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.`
			`2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.`
			`3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model.`
			`4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.`
			`5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.`

Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:32:04 +00:00			`Stretnutie 20.12.2024`

			`Stav:`

			`- Splnené úlohy z posledného stetnutia`
Update pages/students/2022/serhii_yemets/README.md 2024-12-20 10:10:58 +00:00			`- Text je v dobrom stave, treba ešte použiť šablónu.`


			`Úlohy:`

			`- Pripravte si prezentáciu.`
			`- Textu dajte na moodle, skripty dajte na git.`
			`- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.`
			`- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.`

Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:32:04 +00:00
Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:57:13 +00:00			`Zásobník úloh:`

			`- Zostavte webové demo`
			`- Pripravte experiment pre ukrajinský a ruský jazyk.`
Update pages/students/2022/serhii_yemets/README.md 2024-12-20 10:10:58 +00:00			`- Priprave Dockerfile pre Vaše demo`
			`- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.`
Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:57:13 +00:00
Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:32:04 +00:00
Update pages/students/2022/serhii_yemets/README.md 2024-10-30 11:51:04 +00:00			`Stretnutie 30.10.2024`

			`Stav:`

			`- Napísané texty o NE.`
			`- Vyskúšané a naštudované veci podľa pokynov,`
			`- Začiatok práce na webovom deme.`

			`Úlohy:`

Update pages/students/2022/serhii_yemets/README.md 2024-12-20 09:32:04 +00:00			`- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.`
			`- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.`
			`- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?`
			`- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification`
Update pages/students/2022/serhii_yemets/README.md 2024-10-30 12:03:49 +00:00
			`Zásobník úloh:`

Update pages/students/2022/serhii_yemets/README.md 2024-10-30 12:17:27 +00:00			`- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.`
Update pages/students/2022/serhii_yemets/README.md 2024-10-30 12:03:49 +00:00			`- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.`
			`- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.`
			`- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.`
Update pages/students/2022/serhii_yemets/README.md 2024-10-30 11:51:04 +00:00

			`Stretnutie 20.5.20204`
zz 2024-05-16 09:33:37 +00:00
			`Úlohy:`

Update pages/students/2022/serhii_yemets/README.md 2024-10-30 11:51:04 +00:00			`- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.`
			`- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.`
			`- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel`
			`- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.`
			`- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources`
zz 2024-05-16 09:33:37 +00:00
			`Zásobník úloh:`

			`- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.`
			`- Natrénujte model Huggingface pre NER`