forked from KEMT/zpwiki
		
	edit2
This commit is contained in:
		
							parent
							
								
									798c42328d
								
							
						
					
					
						commit
						c6b8fb2c0c
					
				@ -1,19 +1,18 @@
 | 
				
			|||||||
# SPACY
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
# NLP
 | 
					# NLP
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
 | 
					Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
 | 
				
			||||||
porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
 | 
					porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
* Automatické zhrnutie.
 | 
					* Automatické zhrnutie
 | 
				
			||||||
* Uznanie pomenovaného subjektu.
 | 
					* Uznanie pomenovaného subjektu
 | 
				
			||||||
* Systémy odpovedania na otázky.
 | 
					* Systémy odpovedania na otázky
 | 
				
			||||||
* Analýza sentimentu.
 | 
					* Analýza sentimentu 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					# SPACY
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Detekcia viet
 | 
					## Detekcia viet
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
 | 
				
			|||||||
| SYM     | symbol                    | symbol             |
 | 
					| SYM     | symbol                    | symbol             |
 | 
				
			||||||
| VERB    | verb                      | sloveso            |
 | 
					| VERB    | verb                      | sloveso            |
 | 
				
			||||||
| X       | other                     | iné                |
 | 
					| X       | other                     | iné                |
 | 
				
			||||||
 | 
					|         |                           |                    |
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					| Tag  | Description                               |   | Example                    |
 | 
				
			||||||
 | 
					|------|-------------------------------------------|---|----------------------------|
 | 
				
			||||||
 | 
					| CC   | conjunction, coordinating                 |   | and, or, but               |
 | 
				
			||||||
 | 
					| CD   | cardinal number                           |   | five, three, 13%           |
 | 
				
			||||||
 | 
					| DT   | determiner                                |   | the, a, these              |
 | 
				
			||||||
 | 
					| EX   | existential there                         |   | there were six boys        |
 | 
				
			||||||
 | 
					| FW   | foreign word                              |   | mais                       |
 | 
				
			||||||
 | 
					| IN   | conjunction, subordinating or preposition |   | of, on, before, unless     |
 | 
				
			||||||
 | 
					| JJ   | adjective                                 |   | nice, easy                 |
 | 
				
			||||||
 | 
					| JJR  | adjective, comparative                    |   | nicer, easier              |
 | 
				
			||||||
 | 
					| JJS  | adjective, superlative                    |   | nicest, easiest            |
 | 
				
			||||||
 | 
					| LS   | list item marker                          |   |                            |
 | 
				
			||||||
 | 
					| MD   | verb, modal auxillary                     |   | may, should                |
 | 
				
			||||||
 | 
					| NN   | noun, singular or mass                    |   | tiger, chair, laughter     |
 | 
				
			||||||
 | 
					| NNS  | noun, plural                              |   | tigers, chairs, insects    |
 | 
				
			||||||
 | 
					| NNP  | noun, proper singular                     |   | Germany, God, Alice        |
 | 
				
			||||||
 | 
					| NNPS | noun, proper plural                       |   | we met two Christmases ago |
 | 
				
			||||||
 | 
					| PDT  | predeterminer                             |   | both his children          |
 | 
				
			||||||
 | 
					| POS  | possessive ending                         |   | 's                         |
 | 
				
			||||||
 | 
					| PRP  | pronoun, personal                         |   | me, you, it                |
 | 
				
			||||||
 | 
					| PRP$ | pronoun, possessive                       |   | my, your, our              |
 | 
				
			||||||
 | 
					| RB   | adverb                                    |   | extremely, loudly, hard    |
 | 
				
			||||||
 | 
					| RBR  | adverb, comparative                       |   | better                     |
 | 
				
			||||||
 | 
					| RBS  | adverb, superlative                       |   | best                       |
 | 
				
			||||||
 | 
					| RP   | adverb, particle                          |   | about, off, up             |
 | 
				
			||||||
 | 
					| SYM  | symbol                                    |   | %                          |
 | 
				
			||||||
 | 
					| TO   | infinitival to                            |   | what to do                 |
 | 
				
			||||||
 | 
					| UH   | interjection                              |   | oh, oops, gosh             |
 | 
				
			||||||
 | 
					| VB   | verb, base form                           |   | think                      |
 | 
				
			||||||
 | 
					| VBZ  | verb, 3rd person singular present         |   | she thinks                 |
 | 
				
			||||||
 | 
					| VBP  | verb, non-3rd person singular present     |   | I think                    |
 | 
				
			||||||
 | 
					| VBD  | verb, past tense                          |   | they thought               |
 | 
				
			||||||
 | 
					| VBN  | verb, past participle                     |   | a sunken ship              |
 | 
				
			||||||
 | 
					| VBG  | verb, gerund or present participle        |   | thinking is fun            |
 | 
				
			||||||
 | 
					| WDT  | wh-determiner                             |   | which, whatever, whichever |
 | 
				
			||||||
 | 
					| WP   | wh-pronoun, personal                      |   | what, who, whom            |
 | 
				
			||||||
 | 
					| WP$  | wh-pronoun, possessive                    |   | whose, whosever            |
 | 
				
			||||||
 | 
					| WRB  | wh-adverb                                 |   | where, when                |
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -104,18 +145,19 @@ for token in doc:
 | 
				
			|||||||
# . 29  .   True    False   .   PUNCT  
 | 
					# . 29  .   True    False   .   PUNCT  
 | 
				
			||||||
```
 | 
					```
 | 
				
			||||||
* **token.text** reprezentácia textu dokumentu v Unicode,
 | 
					* **token.text** reprezentácia textu dokumentu v Unicode,
 | 
				
			||||||
* **token.idx**  znakový index začiatku,
 | 
					
 | 
				
			||||||
 | 
					* 	**token.idx**  znakový index začiatku,
 | 
				
			||||||
* **token.lemma_** základná podoba tokenu bez inflexných prípon,
 | 
					* **token.lemma_** základná podoba tokenu bez inflexných prípon,
 | 
				
			||||||
* **token.is_punct** je to interpunkcia znamienka,
 | 
						* **token.is_punct** je to interpunkcia znamienka,
 | 
				
			||||||
* **token.is_space** pozostáva token z bielych znakov,
 | 
						* **token.is_space** pozostáva token z bielych znakov,
 | 
				
			||||||
* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
 | 
						* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
 | 
				
			||||||
 napríklad „Xxxx“ alebo „dd“
 | 
					 napríklad „Xxxx“ alebo „dd“
 | 
				
			||||||
* **token.pos_** hrubozrnná časť reči,
 | 
						*  **token.pos_** hrubozrnná časť reči,
 | 
				
			||||||
* **token.tag_** jemnozrnná reč.
 | 
						***token.tag_** jemnozrnná reč.
 | 
				
			||||||
    
 | 
					    
 | 
				
			||||||
Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
 | 
					Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
#### Detekcia vety
 | 
					Detekcia vety
 | 
				
			||||||
 | 
					
 | 
				
			||||||
```python
 | 
					```python
 | 
				
			||||||
doc = nlp("These are apples. These are oranges.")
 | 
					doc = nlp("These are apples. These are oranges.")
 | 
				
			||||||
@ -126,7 +168,7 @@ for sent in doc.sents:
 | 
				
			|||||||
# These are apples.
 | 
					# These are apples.
 | 
				
			||||||
# These are oranges.
 | 
					# These are oranges.
 | 
				
			||||||
```
 | 
					```
 | 
				
			||||||
#### Pomenovanie entit
 | 
					Pomenovanie entit
 | 
				
			||||||
 | 
					
 | 
				
			||||||
```python
 | 
					```python
 | 
				
			||||||
import spacy
 | 
					import spacy
 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user