.. | ||
dp2021 | ||
timovy_projekt | ||
README.md |
Jakub Maruniak
Rok začiatku štúdia: 2016
Diplomový projekt 1 2020
Výstupy (18.6.2020):
Zásobník úloh:
- Anotovať sadu dát s použitím produkčnej anotačnej schémy
- Natrénovať a vyhodnotiť model
- Použiť model na podporu anotácie
Úlohy na semester:
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu
Stretnutie 30.6.2020:
- Dodaný korpus 1300 viet
- Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).
Virtuálne stretnutie 15.5.2020:
- Rozbehaná slovenská anotačná schéma pre pomenované entity
- Problém so slovenským NER modelom z wiki dát
Úlohy:
- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
- vyriešiť problém so spacy modelom.
Revízia 21.4.:
Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation
Revízia 9.4. a 17.4.
Nové úlohy:
- vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj príklady
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do spacy formátu
- Uložte skript na GIT a pridajte odkaz do profilu
Stretnutie 9.3.2020:
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Oboznámte sa s so systémom Docker
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
Návrh možných entít na anotáciu:
- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE
Tímový projekt 2019
Anotácia textových dát
Úlohy tímového projektu:
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
Písomná práca: Rešerš
Návrh na zadanie DP:
- Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
- Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
- Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
- Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
Návrh na názov DP:
Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu
Spolupráca s projektom: