forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Serhii Yemets | true | 
  | 
rok začiatku štúdia: 2022
Bakalárska práca 2025
Cieľ:
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
 
Do budúcnosti:
- Vypracovanie webového dema
 - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
 
Stretnutie 30.10.2024
Stav:
- Napísané texty o NE.
 - Vyskúšané a naštudované veci podľa pokynov,
 - Začiatok práce na webovom deme.
 
Úlohy:
- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
 - Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť.
 - Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
 
Zásobník úloh:
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
 - Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
 - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
 - Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.
 
Stretnutie 20.5.20204
Úlohy:
- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
 - Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
 - Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
 - Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
 - Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
 
Zásobník úloh:
- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
 - Natrénujte model Huggingface pre NER