forked from KEMT/zpwiki
edit2
This commit is contained in:
parent
798c42328d
commit
c6b8fb2c0c
@ -1,19 +1,18 @@
|
|||||||
# SPACY
|
|
||||||
|
|
||||||
|
|
||||||
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
|
|
||||||
|
|
||||||
# NLP
|
# NLP
|
||||||
|
|
||||||
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
|
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
|
||||||
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
|
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
|
||||||
|
|
||||||
|
|
||||||
* Automatické zhrnutie.
|
* Automatické zhrnutie
|
||||||
* Uznanie pomenovaného subjektu.
|
* Uznanie pomenovaného subjektu
|
||||||
* Systémy odpovedania na otázky.
|
* Systémy odpovedania na otázky
|
||||||
* Analýza sentimentu.
|
* Analýza sentimentu
|
||||||
|
|
||||||
|
# SPACY
|
||||||
|
|
||||||
|
|
||||||
|
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
|
||||||
|
|
||||||
## Detekcia viet
|
## Detekcia viet
|
||||||
|
|
||||||
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
|
|||||||
| SYM | symbol | symbol |
|
| SYM | symbol | symbol |
|
||||||
| VERB | verb | sloveso |
|
| VERB | verb | sloveso |
|
||||||
| X | other | iné |
|
| X | other | iné |
|
||||||
|
| | | |
|
||||||
|
|
||||||
|
| Tag | Description | | Example |
|
||||||
|
|------|-------------------------------------------|---|----------------------------|
|
||||||
|
| CC | conjunction, coordinating | | and, or, but |
|
||||||
|
| CD | cardinal number | | five, three, 13% |
|
||||||
|
| DT | determiner | | the, a, these |
|
||||||
|
| EX | existential there | | there were six boys |
|
||||||
|
| FW | foreign word | | mais |
|
||||||
|
| IN | conjunction, subordinating or preposition | | of, on, before, unless |
|
||||||
|
| JJ | adjective | | nice, easy |
|
||||||
|
| JJR | adjective, comparative | | nicer, easier |
|
||||||
|
| JJS | adjective, superlative | | nicest, easiest |
|
||||||
|
| LS | list item marker | | |
|
||||||
|
| MD | verb, modal auxillary | | may, should |
|
||||||
|
| NN | noun, singular or mass | | tiger, chair, laughter |
|
||||||
|
| NNS | noun, plural | | tigers, chairs, insects |
|
||||||
|
| NNP | noun, proper singular | | Germany, God, Alice |
|
||||||
|
| NNPS | noun, proper plural | | we met two Christmases ago |
|
||||||
|
| PDT | predeterminer | | both his children |
|
||||||
|
| POS | possessive ending | | 's |
|
||||||
|
| PRP | pronoun, personal | | me, you, it |
|
||||||
|
| PRP$ | pronoun, possessive | | my, your, our |
|
||||||
|
| RB | adverb | | extremely, loudly, hard |
|
||||||
|
| RBR | adverb, comparative | | better |
|
||||||
|
| RBS | adverb, superlative | | best |
|
||||||
|
| RP | adverb, particle | | about, off, up |
|
||||||
|
| SYM | symbol | | % |
|
||||||
|
| TO | infinitival to | | what to do |
|
||||||
|
| UH | interjection | | oh, oops, gosh |
|
||||||
|
| VB | verb, base form | | think |
|
||||||
|
| VBZ | verb, 3rd person singular present | | she thinks |
|
||||||
|
| VBP | verb, non-3rd person singular present | | I think |
|
||||||
|
| VBD | verb, past tense | | they thought |
|
||||||
|
| VBN | verb, past participle | | a sunken ship |
|
||||||
|
| VBG | verb, gerund or present participle | | thinking is fun |
|
||||||
|
| WDT | wh-determiner | | which, whatever, whichever |
|
||||||
|
| WP | wh-pronoun, personal | | what, who, whom |
|
||||||
|
| WP$ | wh-pronoun, possessive | | whose, whosever |
|
||||||
|
| WRB | wh-adverb | | where, when |
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
@ -104,18 +145,19 @@ for token in doc:
|
|||||||
# . 29 . True False . PUNCT
|
# . 29 . True False . PUNCT
|
||||||
```
|
```
|
||||||
* **token.text** reprezentácia textu dokumentu v Unicode,
|
* **token.text** reprezentácia textu dokumentu v Unicode,
|
||||||
|
|
||||||
* **token.idx** znakový index začiatku,
|
* **token.idx** znakový index začiatku,
|
||||||
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
|
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
|
||||||
* **token.is_punct** je to interpunkcia znamienka,
|
* **token.is_punct** je to interpunkcia znamienka,
|
||||||
* **token.is_space** pozostáva token z bielych znakov,
|
* **token.is_space** pozostáva token z bielych znakov,
|
||||||
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
|
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
|
||||||
napríklad „Xxxx“ alebo „dd“
|
napríklad „Xxxx“ alebo „dd“
|
||||||
* **token.pos_** hrubozrnná časť reči,
|
* **token.pos_** hrubozrnná časť reči,
|
||||||
* **token.tag_** jemnozrnná reč.
|
***token.tag_** jemnozrnná reč.
|
||||||
|
|
||||||
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
|
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
|
||||||
|
|
||||||
#### Detekcia vety
|
Detekcia vety
|
||||||
|
|
||||||
```python
|
```python
|
||||||
doc = nlp("These are apples. These are oranges.")
|
doc = nlp("These are apples. These are oranges.")
|
||||||
@ -126,7 +168,7 @@ for sent in doc.sents:
|
|||||||
# These are apples.
|
# These are apples.
|
||||||
# These are oranges.
|
# These are oranges.
|
||||||
```
|
```
|
||||||
#### Pomenovanie entit
|
Pomenovanie entit
|
||||||
|
|
||||||
```python
|
```python
|
||||||
import spacy
|
import spacy
|
||||||
|
Loading…
Reference in New Issue
Block a user