forked from KEMT/zpwiki
Aktualizovat „pages/students/2016/maros_harahus/timovy_projekt/README.md“
This commit is contained in:
parent
c518bffc3b
commit
d3be1b2bac
@ -57,7 +57,7 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
|
|||||||
|
|
||||||
|
|
||||||
| Tag | Description | Slovensky vyznam | Example |
|
| Tag | Description | Slovensky vyznam | Example |
|
||||||
|------|-------------------------------------------|---|----------------------------|
|
|:----:|:-----------------------------------------:|:----------------:|:--------------------------:|
|
||||||
| CC | conjunction, coordinating | | and, or, but |
|
| CC | conjunction, coordinating | | and, or, but |
|
||||||
| CD | cardinal number | | five, three, 13% |
|
| CD | cardinal number | | five, three, 13% |
|
||||||
| DT | determiner | | the, a, these |
|
| DT | determiner | | the, a, these |
|
||||||
@ -101,7 +101,7 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
|
|||||||
|
|
||||||
# Inštalácia spacy
|
# Inštalácia spacy
|
||||||
|
|
||||||
```bash
|
```python
|
||||||
pip install -U spaCy //instalacia spacy
|
pip install -U spaCy //instalacia spacy
|
||||||
python -m spacy download en //instalacia anglickeho jazyka
|
python -m spacy download en //instalacia anglickeho jazyka
|
||||||
```
|
```
|
||||||
@ -185,6 +185,6 @@ for ent in doc.ents:
|
|||||||
Na tomto príklade môžme pozorovať, že spacy dokáže rozlíšiť slova. Dokáže zistiť či dané slovo je napr. mesto(GPE-Geopolitical entity) alebo nejaká organizácia (ORG- Companies). Ďalej vie určiť či sa jedná o dátum, sumu peňazí, osobu atď. .
|
Na tomto príklade môžme pozorovať, že spacy dokáže rozlíšiť slova. Dokáže zistiť či dané slovo je napr. mesto(GPE-Geopolitical entity) alebo nejaká organizácia (ORG- Companies). Ďalej vie určiť či sa jedná o dátum, sumu peňazí, osobu atď. .
|
||||||
|
|
||||||
|
|
||||||
|
# Záver
|
||||||
|
V tomto semestri som sa venoval programovaciemu jazyku python. Študoval som tento programovací jazyk jeho syntax a ďalšie veci okolo tohto programovacieho jazyka. V ďalšej časti som sa venoval frameworku Spacy ktorý vytvára model pre Part Of Speech tagging. Zisťoval som čo tento framework dokáže robiť a na akom princípe funguje. Ďalších semestroch sa budem venovať podpory slovenského jazyka pre framework Spacy. Konkrétne vytvorené značkovania v slovenskom jazyku. Ako prvé si musím naštudovať sadu slovenského národného korpusu a na akom princípe funguje. V letnom semestri by som už vytvoriť mapovanie morfologických značiek slovenského národného korpusu. Ako hlavne body mojej diplomovej prace budú vypracovanie prehľadu spôsobu morfologickej anotácie slovenského jazyka. Taktiež si budem musieť pripraviť nejaké dáta s ktorými by som mohol pracovať vo svojej diplomovej práci. Poslednou cestou mojej prace bude vyhodnotiť presnosť značkovania mnou vytvoreného nastroja a navrhnúť nejaké zlepšenia ktoré by sa mohli do budúcna implementovať.
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user