History

dano 98ef74e3cb Update pages/students/2022/serhii_yemets/README.md		2024-12-20 09:32:04 +00:00
..
README.md	Update pages/students/2022/serhii_yemets/README.md	2024-12-20 09:32:04 +00:00

title

published

taxonomy

Serhii Yemets

true

Bakalárska práca 2025

Cieľ:

Do budúcnosti:

Stretnutie 20.12.2024

Stav:

Stretnutie 30.10.2024

Stav:

Úlohy:

Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification

Zásobník úloh:

Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.

Stretnutie 20.5.20204

Úlohy:

Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources

Zásobník úloh: