edit2

2019-12-14 23:13:12 +01:00 · 2019-12-14 23:13:12 +01:00 · c6b8fb2c0c
commit c6b8fb2c0c
parent 798c42328d
1 changed files with 59 additions and 17 deletions
--- a/pages/students/2016/maros_harahus/timovy_projekt/README.md
+++ b/pages/students/2016/maros_harahus/timovy_projekt/README.md
@ -1,19 +1,18 @@
 # SPACY
 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 # NLP
 Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a
 porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia:
-* Automatické zhrnutie.
+* Automatické zhrnutie
-* Uznanie pomenovaného subjektu.
+* Uznanie pomenovaného subjektu
-* Systémy odpovedania na otázky.
+* Systémy odpovedania na otázky
-* Analýza sentimentu.
+* Analýza sentimentu 
 # SPACY
 Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. 
 ## Detekcia viet
@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová
 | SYM     | symbol                    | symbol             |
 | VERB    | verb                      | sloveso            |
 | X       | other                     | iné                |
 |         |                           |                    |
 | Tag  | Description                               |   | Example                    |
 |------|-------------------------------------------|---|----------------------------|
 | CC   | conjunction, coordinating                 |   | and, or, but               |
 | CD   | cardinal number                           |   | five, three, 13%           |
 | DT   | determiner                                |   | the, a, these              |
 | EX   | existential there                         |   | there were six boys        |
 | FW   | foreign word                              |   | mais                       |
 | IN   | conjunction, subordinating or preposition |   | of, on, before, unless     |
 | JJ   | adjective                                 |   | nice, easy                 |
 | JJR  | adjective, comparative                    |   | nicer, easier              |
 | JJS  | adjective, superlative                    |   | nicest, easiest            |
 | LS   | list item marker                          |   |                            |
 | MD   | verb, modal auxillary                     |   | may, should                |
 | NN   | noun, singular or mass                    |   | tiger, chair, laughter     |
 | NNS  | noun, plural                              |   | tigers, chairs, insects    |
 | NNP  | noun, proper singular                     |   | Germany, God, Alice        |
 | NNPS | noun, proper plural                       |   | we met two Christmases ago |
 | PDT  | predeterminer                             |   | both his children          |
 | POS  | possessive ending                         |   | 's                         |
 | PRP  | pronoun, personal                         |   | me, you, it                |
 | PRP$ | pronoun, possessive                       |   | my, your, our              |
 | RB   | adverb                                    |   | extremely, loudly, hard    |
 | RBR  | adverb, comparative                       |   | better                     |
 | RBS  | adverb, superlative                       |   | best                       |
 | RP   | adverb, particle                          |   | about, off, up             |
 | SYM  | symbol                                    |   | %                          |
 | TO   | infinitival to                            |   | what to do                 |
 | UH   | interjection                              |   | oh, oops, gosh             |
 | VB   | verb, base form                           |   | think                      |
 | VBZ  | verb, 3rd person singular present         |   | she thinks                 |
 | VBP  | verb, non-3rd person singular present     |   | I think                    |
 | VBD  | verb, past tense                          |   | they thought               |
 | VBN  | verb, past participle                     |   | a sunken ship              |
 | VBG  | verb, gerund or present participle        |   | thinking is fun            |
 | WDT  | wh-determiner                             |   | which, whatever, whichever |
 | WP   | wh-pronoun, personal                      |   | what, who, whom            |
 | WP$  | wh-pronoun, possessive                    |   | whose, whosever            |
 | WRB  | wh-adverb                                 |   | where, when                |
@ -104,18 +145,19 @@ for token in doc:
 # . 29  .   True    False   .   PUNCT  
 ```
 * **token.text** reprezentácia textu dokumentu v Unicode,
-* **token.idx**  znakový index začiatku,
+
 * 	**token.idx**  znakový index začiatku,
 * **token.lemma_** základná podoba tokenu bez inflexných prípon,
-* **token.is_punct** je to interpunkcia znamienka,
+	* **token.is_punct** je to interpunkcia znamienka,
-* **token.is_space** pozostáva token z bielych znakov,
+	* **token.is_space** pozostáva token z bielych znakov,
-* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
+	* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, 
 napríklad „Xxxx“ alebo „dd“
-* **token.pos_** hrubozrnná časť reči,
+	*  **token.pos_** hrubozrnná časť reči,
-* **token.tag_** jemnozrnná reč.
+	***token.tag_** jemnozrnná reč.
 Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd.
-#### Detekcia vety
+Detekcia vety
 ```python
 doc = nlp("These are apples. These are oranges.")
@ -126,7 +168,7 @@ for sent in doc.sents:
 # These are apples.
 # These are oranges.
 ```
-#### Pomenovanie entit
+Pomenovanie entit
 ```python
 import spacy