forked from KEMT/zpwiki
		
	edit2
This commit is contained in:
		
							parent
							
								
									798c42328d
								
							
						
					
					
						commit
						c6b8fb2c0c
					
				@ -1,19 +1,18 @@
 | 
			
		||||
# SPACY
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 | 
			
		||||
 | 
			
		||||
# NLP
 | 
			
		||||
 | 
			
		||||
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
 | 
			
		||||
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
* Automatické zhrnutie.
 | 
			
		||||
* Uznanie pomenovaného subjektu.
 | 
			
		||||
* Systémy odpovedania na otázky.
 | 
			
		||||
* Analýza sentimentu.
 | 
			
		||||
* Automatické zhrnutie
 | 
			
		||||
* Uznanie pomenovaného subjektu
 | 
			
		||||
* Systémy odpovedania na otázky
 | 
			
		||||
* Analýza sentimentu 
 | 
			
		||||
 | 
			
		||||
# SPACY
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 | 
			
		||||
 | 
			
		||||
## Detekcia viet
 | 
			
		||||
 | 
			
		||||
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
 | 
			
		||||
| SYM     | symbol                    | symbol             |
 | 
			
		||||
| VERB    | verb                      | sloveso            |
 | 
			
		||||
| X       | other                     | iné                |
 | 
			
		||||
|         |                           |                    |
 | 
			
		||||
 | 
			
		||||
| Tag  | Description                               |   | Example                    |
 | 
			
		||||
|------|-------------------------------------------|---|----------------------------|
 | 
			
		||||
| CC   | conjunction, coordinating                 |   | and, or, but               |
 | 
			
		||||
| CD   | cardinal number                           |   | five, three, 13%           |
 | 
			
		||||
| DT   | determiner                                |   | the, a, these              |
 | 
			
		||||
| EX   | existential there                         |   | there were six boys        |
 | 
			
		||||
| FW   | foreign word                              |   | mais                       |
 | 
			
		||||
| IN   | conjunction, subordinating or preposition |   | of, on, before, unless     |
 | 
			
		||||
| JJ   | adjective                                 |   | nice, easy                 |
 | 
			
		||||
| JJR  | adjective, comparative                    |   | nicer, easier              |
 | 
			
		||||
| JJS  | adjective, superlative                    |   | nicest, easiest            |
 | 
			
		||||
| LS   | list item marker                          |   |                            |
 | 
			
		||||
| MD   | verb, modal auxillary                     |   | may, should                |
 | 
			
		||||
| NN   | noun, singular or mass                    |   | tiger, chair, laughter     |
 | 
			
		||||
| NNS  | noun, plural                              |   | tigers, chairs, insects    |
 | 
			
		||||
| NNP  | noun, proper singular                     |   | Germany, God, Alice        |
 | 
			
		||||
| NNPS | noun, proper plural                       |   | we met two Christmases ago |
 | 
			
		||||
| PDT  | predeterminer                             |   | both his children          |
 | 
			
		||||
| POS  | possessive ending                         |   | 's                         |
 | 
			
		||||
| PRP  | pronoun, personal                         |   | me, you, it                |
 | 
			
		||||
| PRP$ | pronoun, possessive                       |   | my, your, our              |
 | 
			
		||||
| RB   | adverb                                    |   | extremely, loudly, hard    |
 | 
			
		||||
| RBR  | adverb, comparative                       |   | better                     |
 | 
			
		||||
| RBS  | adverb, superlative                       |   | best                       |
 | 
			
		||||
| RP   | adverb, particle                          |   | about, off, up             |
 | 
			
		||||
| SYM  | symbol                                    |   | %                          |
 | 
			
		||||
| TO   | infinitival to                            |   | what to do                 |
 | 
			
		||||
| UH   | interjection                              |   | oh, oops, gosh             |
 | 
			
		||||
| VB   | verb, base form                           |   | think                      |
 | 
			
		||||
| VBZ  | verb, 3rd person singular present         |   | she thinks                 |
 | 
			
		||||
| VBP  | verb, non-3rd person singular present     |   | I think                    |
 | 
			
		||||
| VBD  | verb, past tense                          |   | they thought               |
 | 
			
		||||
| VBN  | verb, past participle                     |   | a sunken ship              |
 | 
			
		||||
| VBG  | verb, gerund or present participle        |   | thinking is fun            |
 | 
			
		||||
| WDT  | wh-determiner                             |   | which, whatever, whichever |
 | 
			
		||||
| WP   | wh-pronoun, personal                      |   | what, who, whom            |
 | 
			
		||||
| WP$  | wh-pronoun, possessive                    |   | whose, whosever            |
 | 
			
		||||
| WRB  | wh-adverb                                 |   | where, when                |
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
@ -104,6 +145,7 @@ for token in doc:
 | 
			
		||||
# . 29  .   True    False   .   PUNCT  
 | 
			
		||||
```
 | 
			
		||||
* **token.text** reprezentácia textu dokumentu v Unicode,
 | 
			
		||||
 | 
			
		||||
* 	**token.idx**  znakový index začiatku,
 | 
			
		||||
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
 | 
			
		||||
	* **token.is_punct** je to interpunkcia znamienka,
 | 
			
		||||
@ -115,7 +157,7 @@ for token in doc:
 | 
			
		||||
    
 | 
			
		||||
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
 | 
			
		||||
 | 
			
		||||
#### Detekcia vety
 | 
			
		||||
Detekcia vety
 | 
			
		||||
 | 
			
		||||
```python
 | 
			
		||||
doc = nlp("These are apples. These are oranges.")
 | 
			
		||||
@ -126,7 +168,7 @@ for sent in doc.sents:
 | 
			
		||||
# These are apples.
 | 
			
		||||
# These are oranges.
 | 
			
		||||
```
 | 
			
		||||
#### Pomenovanie entit
 | 
			
		||||
Pomenovanie entit
 | 
			
		||||
 | 
			
		||||
```python
 | 
			
		||||
import spacy
 | 
			
		||||
 | 
			
		||||
		Loading…
	
		Reference in New Issue
	
	Block a user