--- title: Serhii Yemets published: true taxonomy: category: [bp2025] tag: [ner,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 # Bakalárska práca 2025 Cieľ: - Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít. Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). Návrh na zadanie bakalárskej práce: 1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku. 2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít. 3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model. 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít. Stretnutie 20.12.2024 Stav: - Splnené úlohy z posledného stetnutia - Text je v dobrom stave, treba ešte použiť šablónu. Úlohy: - Pripravte si prezentáciu. - Textu dajte na moodle, skripty dajte na git. - Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. - Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. Zásobník úloh: - Zostavte webové demo - Pripravte experiment pre ukrajinský a ruský jazyk. - Priprave Dockerfile pre Vaše demo - Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty. Stretnutie 30.10.2024 Stav: - Napísané texty o NE. - Vyskúšané a naštudované veci podľa pokynov, - Začiatok práce na webovom deme. Úlohy: - [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. - [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. - [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? - [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification Zásobník úloh: - Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. - Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. - Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. Stretnutie 20.5.20204 Úlohy: - [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu. - [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda. - [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel - [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. - [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources Zásobník úloh: - Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné. - Natrénujte model Huggingface pre NER