diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 78c77f89b..60e6e4b17 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -33,7 +33,17 @@ Stav: Úlohy: -- Vyberte korpusy s NER pre slovenský jazyk +- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. +- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? + + +Zásobník úloh: + +- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. +- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. +- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. +- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. Stretnutie 20.5.20204