This commit is contained in:
PCKlub Vala User (MySQL) 2019-12-14 23:13:12 +01:00
parent 798c42328d
commit c6b8fb2c0c

View File

@ -1,19 +1,18 @@
# SPACY
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
# NLP
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
* Automatické zhrnutie.
* Uznanie pomenovaného subjektu.
* Systémy odpovedania na otázky.
* Analýza sentimentu.
* Automatické zhrnutie
* Uznanie pomenovaného subjektu
* Systémy odpovedania na otázky
* Analýza sentimentu
# SPACY
Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API.
## Detekcia viet
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
| SYM | symbol | symbol |
| VERB | verb | sloveso |
| X | other | iné |
| | | |
| Tag | Description | | Example |
|------|-------------------------------------------|---|----------------------------|
| CC | conjunction, coordinating | | and, or, but |
| CD | cardinal number | | five, three, 13% |
| DT | determiner | | the, a, these |
| EX | existential there | | there were six boys |
| FW | foreign word | | mais |
| IN | conjunction, subordinating or preposition | | of, on, before, unless |
| JJ | adjective | | nice, easy |
| JJR | adjective, comparative | | nicer, easier |
| JJS | adjective, superlative | | nicest, easiest |
| LS | list item marker | | |
| MD | verb, modal auxillary | | may, should |
| NN | noun, singular or mass | | tiger, chair, laughter |
| NNS | noun, plural | | tigers, chairs, insects |
| NNP | noun, proper singular | | Germany, God, Alice |
| NNPS | noun, proper plural | | we met two Christmases ago |
| PDT | predeterminer | | both his children |
| POS | possessive ending | | 's |
| PRP | pronoun, personal | | me, you, it |
| PRP$ | pronoun, possessive | | my, your, our |
| RB | adverb | | extremely, loudly, hard |
| RBR | adverb, comparative | | better |
| RBS | adverb, superlative | | best |
| RP | adverb, particle | | about, off, up |
| SYM | symbol | | % |
| TO | infinitival to | | what to do |
| UH | interjection | | oh, oops, gosh |
| VB | verb, base form | | think |
| VBZ | verb, 3rd person singular present | | she thinks |
| VBP | verb, non-3rd person singular present | | I think |
| VBD | verb, past tense | | they thought |
| VBN | verb, past participle | | a sunken ship |
| VBG | verb, gerund or present participle | | thinking is fun |
| WDT | wh-determiner | | which, whatever, whichever |
| WP | wh-pronoun, personal | | what, who, whom |
| WP$ | wh-pronoun, possessive | | whose, whosever |
| WRB | wh-adverb | | where, when |
@ -104,18 +145,19 @@ for token in doc:
# . 29 . True False . PUNCT
```
* **token.text** reprezentácia textu dokumentu v Unicode,
* **token.idx** znakový index začiatku,
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
* **token.is_punct** je to interpunkcia znamienka,
* **token.is_space** pozostáva token z bielych znakov,
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
* **token.is_punct** je to interpunkcia znamienka,
* **token.is_space** pozostáva token z bielych znakov,
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov,
napríklad „Xxxx“ alebo „dd“
* **token.pos_** hrubozrnná časť reči,
* **token.tag_** jemnozrnná reč.
* **token.pos_** hrubozrnná časť reči,
***token.tag_** jemnozrnná reč.
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
#### Detekcia vety
Detekcia vety
```python
doc = nlp("These are apples. These are oranges.")
@ -126,7 +168,7 @@ for sent in doc.sents:
# These are apples.
# These are oranges.
```
#### Pomenovanie entit
Pomenovanie entit
```python
import spacy