forked from KEMT/zpwiki
edit2
This commit is contained in:
parent
798c42328d
commit
c6b8fb2c0c
@ -1,19 +1,18 @@
|
||||
# SPACY
|
||||
|
||||
|
||||
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
|
||||
|
||||
# NLP
|
||||
|
||||
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
|
||||
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
|
||||
|
||||
|
||||
* Automatické zhrnutie.
|
||||
* Uznanie pomenovaného subjektu.
|
||||
* Systémy odpovedania na otázky.
|
||||
* Analýza sentimentu.
|
||||
* Automatické zhrnutie
|
||||
* Uznanie pomenovaného subjektu
|
||||
* Systémy odpovedania na otázky
|
||||
* Analýza sentimentu
|
||||
|
||||
# SPACY
|
||||
|
||||
|
||||
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
|
||||
|
||||
## Detekcia viet
|
||||
|
||||
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
|
||||
| SYM | symbol | symbol |
|
||||
| VERB | verb | sloveso |
|
||||
| X | other | iné |
|
||||
| | | |
|
||||
|
||||
| Tag | Description | | Example |
|
||||
|------|-------------------------------------------|---|----------------------------|
|
||||
| CC | conjunction, coordinating | | and, or, but |
|
||||
| CD | cardinal number | | five, three, 13% |
|
||||
| DT | determiner | | the, a, these |
|
||||
| EX | existential there | | there were six boys |
|
||||
| FW | foreign word | | mais |
|
||||
| IN | conjunction, subordinating or preposition | | of, on, before, unless |
|
||||
| JJ | adjective | | nice, easy |
|
||||
| JJR | adjective, comparative | | nicer, easier |
|
||||
| JJS | adjective, superlative | | nicest, easiest |
|
||||
| LS | list item marker | | |
|
||||
| MD | verb, modal auxillary | | may, should |
|
||||
| NN | noun, singular or mass | | tiger, chair, laughter |
|
||||
| NNS | noun, plural | | tigers, chairs, insects |
|
||||
| NNP | noun, proper singular | | Germany, God, Alice |
|
||||
| NNPS | noun, proper plural | | we met two Christmases ago |
|
||||
| PDT | predeterminer | | both his children |
|
||||
| POS | possessive ending | | 's |
|
||||
| PRP | pronoun, personal | | me, you, it |
|
||||
| PRP$ | pronoun, possessive | | my, your, our |
|
||||
| RB | adverb | | extremely, loudly, hard |
|
||||
| RBR | adverb, comparative | | better |
|
||||
| RBS | adverb, superlative | | best |
|
||||
| RP | adverb, particle | | about, off, up |
|
||||
| SYM | symbol | | % |
|
||||
| TO | infinitival to | | what to do |
|
||||
| UH | interjection | | oh, oops, gosh |
|
||||
| VB | verb, base form | | think |
|
||||
| VBZ | verb, 3rd person singular present | | she thinks |
|
||||
| VBP | verb, non-3rd person singular present | | I think |
|
||||
| VBD | verb, past tense | | they thought |
|
||||
| VBN | verb, past participle | | a sunken ship |
|
||||
| VBG | verb, gerund or present participle | | thinking is fun |
|
||||
| WDT | wh-determiner | | which, whatever, whichever |
|
||||
| WP | wh-pronoun, personal | | what, who, whom |
|
||||
| WP$ | wh-pronoun, possessive | | whose, whosever |
|
||||
| WRB | wh-adverb | | where, when |
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
@ -104,18 +145,19 @@ for token in doc:
|
||||
# . 29 . True False . PUNCT
|
||||
```
|
||||
* **token.text** reprezentácia textu dokumentu v Unicode,
|
||||
* **token.idx** znakový index začiatku,
|
||||
|
||||
* **token.idx** znakový index začiatku,
|
||||
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
|
||||
* **token.is_punct** je to interpunkcia znamienka,
|
||||
* **token.is_space** pozostáva token z bielych znakov,
|
||||
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
|
||||
* **token.is_punct** je to interpunkcia znamienka,
|
||||
* **token.is_space** pozostáva token z bielych znakov,
|
||||
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
|
||||
napríklad „Xxxx“ alebo „dd“
|
||||
* **token.pos_** hrubozrnná časť reči,
|
||||
* **token.tag_** jemnozrnná reč.
|
||||
* **token.pos_** hrubozrnná časť reči,
|
||||
***token.tag_** jemnozrnná reč.
|
||||
|
||||
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
|
||||
|
||||
#### Detekcia vety
|
||||
Detekcia vety
|
||||
|
||||
```python
|
||||
doc = nlp("These are apples. These are oranges.")
|
||||
@ -126,7 +168,7 @@ for sent in doc.sents:
|
||||
# These are apples.
|
||||
# These are oranges.
|
||||
```
|
||||
#### Pomenovanie entit
|
||||
Pomenovanie entit
|
||||
|
||||
```python
|
||||
import spacy
|
||||
|
Loading…
Reference in New Issue
Block a user