edit2

2019-12-14 23:13:12 +01:00 · 2019-12-14 23:13:12 +01:00 · c6b8fb2c0c
commit c6b8fb2c0c
parent 798c42328d
1 changed files with 59 additions and 17 deletions
--- a/pages/students/2016/maros_harahus/timovy_projekt/README.md
+++ b/pages/students/2016/maros_harahus/timovy_projekt/README.md
@ -1,19 +1,18 @@
-# SPACY
-
-
- Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
-
 # NLP

 Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
 porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:


-* Automatické zhrnutie.
-* Uznanie pomenovaného subjektu.
-* Systémy odpovedania na otázky.
-* Analýza sentimentu.
+* Automatické zhrnutie
+* Uznanie pomenovaného subjektu
+* Systémy odpovedania na otázky
+* Analýza sentimentu 

+# SPACY
+
+
+ Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 

 ## Detekcia viet

@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
 | SYM     | symbol                    | symbol             |
 | VERB    | verb                      | sloveso            |
 | X       | other                     | iné                |
+|         |                           |                    |
+
+| Tag  | Description                               |   | Example                    |
+|------|-------------------------------------------|---|----------------------------|
+| CC   | conjunction, coordinating                 |   | and, or, but               |
+| CD   | cardinal number                           |   | five, three, 13%           |
+| DT   | determiner                                |   | the, a, these              |
+| EX   | existential there                         |   | there were six boys        |
+| FW   | foreign word                              |   | mais                       |
+| IN   | conjunction, subordinating or preposition |   | of, on, before, unless     |
+| JJ   | adjective                                 |   | nice, easy                 |
+| JJR  | adjective, comparative                    |   | nicer, easier              |
+| JJS  | adjective, superlative                    |   | nicest, easiest            |
+| LS   | list item marker                          |   |                            |
+| MD   | verb, modal auxillary                     |   | may, should                |
+| NN   | noun, singular or mass                    |   | tiger, chair, laughter     |
+| NNS  | noun, plural                              |   | tigers, chairs, insects    |
+| NNP  | noun, proper singular                     |   | Germany, God, Alice        |
+| NNPS | noun, proper plural                       |   | we met two Christmases ago |
+| PDT  | predeterminer                             |   | both his children          |
+| POS  | possessive ending                         |   | 's                         |
+| PRP  | pronoun, personal                         |   | me, you, it                |
+| PRP$ | pronoun, possessive                       |   | my, your, our              |
+| RB   | adverb                                    |   | extremely, loudly, hard    |
+| RBR  | adverb, comparative                       |   | better                     |
+| RBS  | adverb, superlative                       |   | best                       |
+| RP   | adverb, particle                          |   | about, off, up             |
+| SYM  | symbol                                    |   | %                          |
+| TO   | infinitival to                            |   | what to do                 |
+| UH   | interjection                              |   | oh, oops, gosh             |
+| VB   | verb, base form                           |   | think                      |
+| VBZ  | verb, 3rd person singular present         |   | she thinks                 |
+| VBP  | verb, non-3rd person singular present     |   | I think                    |
+| VBD  | verb, past tense                          |   | they thought               |
+| VBN  | verb, past participle                     |   | a sunken ship              |
+| VBG  | verb, gerund or present participle        |   | thinking is fun            |
+| WDT  | wh-determiner                             |   | which, whatever, whichever |
+| WP   | wh-pronoun, personal                      |   | what, who, whom            |
+| WP$  | wh-pronoun, possessive                    |   | whose, whosever            |
+| WRB  | wh-adverb                                 |   | where, when                |
+
+



@ -104,18 +145,19 @@ for token in doc:
 # . 29  .   True    False   .   PUNCT  
 ```
 * **token.text** reprezentácia textu dokumentu v Unicode,
+
 * 	**token.idx**  znakový index začiatku,
 * **token.lemma_** základná podoba tokenu bez inflexných prípon,
-* **token.is_punct** je to interpunkcia znamienka,
-* **token.is_space** pozostáva token z bielych znakov,
-* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
+	* **token.is_punct** je to interpunkcia znamienka,
+	* **token.is_space** pozostáva token z bielych znakov,
+	* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
 napríklad „Xxxx“ alebo „dd“
-* **token.pos_** hrubozrnná časť reči,
-* **token.tag_** jemnozrnná reč.
+	*  **token.pos_** hrubozrnná časť reči,
+	***token.tag_** jemnozrnná reč.
    
 Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.

-#### Detekcia vety
+Detekcia vety

 ```python
 doc = nlp("These are apples. These are oranges.")
@ -126,7 +168,7 @@ for sent in doc.sents:
 # These are apples.
 # These are oranges.
 ```
-#### Pomenovanie entit
+Pomenovanie entit

 ```python
 import spacy