Aktualizovat „pages/students/2016/maros_harahus/timovy_projekt/README.md“

This commit is contained in:
Maroš Harahus 2019-12-21 19:18:39 +00:00
parent c518bffc3b
commit d3be1b2bac

View File

@ -56,8 +56,8 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
| X | other | iné |
| Tag | Description |Slovensky vyznam | Example |
|------|-------------------------------------------|---|----------------------------|
| Tag | Description | Slovensky vyznam | Example |
|:----:|:-----------------------------------------:|:----------------:|:--------------------------:|
| CC | conjunction, coordinating | | and, or, but |
| CD | cardinal number | | five, three, 13% |
| DT | determiner | | the, a, these |
@ -101,7 +101,7 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
# Inštalácia spacy
```bash
```python
pip install -U spaCy //instalacia spacy
python -m spacy download en //instalacia anglickeho jazyka
```
@ -185,6 +185,6 @@ for ent in doc.ents:
Na tomto príklade môžme pozorovať, že spacy dokáže rozlíšiť slova. Dokáže zistiť či dané slovo je napr. mesto(GPE-Geopolitical entity) alebo nejaká organizácia (ORG- Companies). Ďalej vie určiť či sa jedná o dátum, sumu peňazí, osobu atď. .
# Záver
V tomto semestri som sa venoval programovaciemu jazyku python. Študoval som tento programovací jazyk jeho syntax a ďalšie veci okolo tohto programovacieho jazyka. V ďalšej časti som sa venoval frameworku Spacy ktorý vytvára model pre Part Of Speech tagging. Zisťoval som čo tento framework dokáže robiť a na akom princípe funguje. Ďalších semestroch sa budem venovať podpory slovenského jazyka pre framework Spacy. Konkrétne vytvorené značkovania v slovenskom jazyku. Ako prvé si musím naštudovať sadu slovenského národného korpusu a na akom princípe funguje. V letnom semestri by som už vytvoriť mapovanie morfologických značiek slovenského národného korpusu. Ako hlavne body mojej diplomovej prace budú vypracovanie prehľadu spôsobu morfologickej anotácie slovenského jazyka. Taktiež si budem musieť pripraviť nejaké dáta s ktorými by som mohol pracovať vo svojej diplomovej práci. Poslednou cestou mojej prace bude vyhodnotiť presnosť značkovania mnou vytvoreného nastroja a navrhnúť nejaké zlepšenia ktoré by sa mohli do budúcna implementovať.