- Vyskúšať "python -m spacy" podľa tutoriálu na stránke
- Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)
28.10
- Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/)
- pozrite si "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html)
Cieľ:
- Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
- V prvom semestri bude výstup:
- Oboznámiť sa "ako písať záverečnú pracu"
- nainštalovaný systém prodigy
- Vybratá dátová množina pripravená vo vhodnom formáte.
- Pripravená anotačná uloha
- Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
- V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
- V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.
- Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
- Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.
V druhom semestri:
- natrénovanie vlastného modelu na vlastných dátach
1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
4. Na základe výsledkov experimentov navrhnite možné zlepšenia.
Úlohy:
- Nainštalujte si prostredie Anaconda https://www.anaconda.com/
- Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/
- Zistite použitú štatistickú metódu a podrobne ju opíšte
- Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články
- Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému