diff --git a/pages/students/2016/maros_harahus/timovy_projekt/README.md b/pages/students/2016/maros_harahus/timovy_projekt/README.md index a947663d4..a55c89448 100644 --- a/pages/students/2016/maros_harahus/timovy_projekt/README.md +++ b/pages/students/2016/maros_harahus/timovy_projekt/README.md @@ -1,19 +1,18 @@ -# SPACY - - - Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. - # NLP Je založený na umelej inteligencii, ktorá sa zaoberá interakciami medzi počítačom a jazykmi. NLP uľahčuje proces analýzy a porozumenia ľudského jazyka pre počítače a umelú inteligenciu. Pomáha extrahovať informácie z textu. V dnešnej dobe sa textové údaje vytvárajú vo veľkom množstve a je ich dôležité spravovať a odovzdať informácie z neštruktúrovaných údajov. Preto musíme údaje reprezentovať vo formáte v ktorom počítače rozumejú a v tomto prípade nám pomáha NLP. Má niekoľko prípadov použitia: -* Automatické zhrnutie. -* Uznanie pomenovaného subjektu. -* Systémy odpovedania na otázky. -* Analýza sentimentu. +* Automatické zhrnutie +* Uznanie pomenovaného subjektu +* Systémy odpovedania na otázky +* Analýza sentimentu +# SPACY + + + Je bezplatná knižnica pre NLP v programovacom jazyku python. Táto knižnica je napísala v Cythone a je určená pre budovanie extrakcie informácii alebo pochopenie prirodzeného jazyka. Je navrhnutý pre použitie v pythone a ponuka priateľské rozhranie API. ## Detekcia viet @@ -55,6 +54,48 @@ Tokenizácia sa voľne označuje ako segmentácia textového dokumentu na slová | SYM | symbol | symbol | | VERB | verb | sloveso | | X | other | iné | +| | | | + +| Tag | Description | | Example | +|------|-------------------------------------------|---|----------------------------| +| CC | conjunction, coordinating | | and, or, but | +| CD | cardinal number | | five, three, 13% | +| DT | determiner | | the, a, these | +| EX | existential there | | there were six boys | +| FW | foreign word | | mais | +| IN | conjunction, subordinating or preposition | | of, on, before, unless | +| JJ | adjective | | nice, easy | +| JJR | adjective, comparative | | nicer, easier | +| JJS | adjective, superlative | | nicest, easiest | +| LS | list item marker | | | +| MD | verb, modal auxillary | | may, should | +| NN | noun, singular or mass | | tiger, chair, laughter | +| NNS | noun, plural | | tigers, chairs, insects | +| NNP | noun, proper singular | | Germany, God, Alice | +| NNPS | noun, proper plural | | we met two Christmases ago | +| PDT | predeterminer | | both his children | +| POS | possessive ending | | 's | +| PRP | pronoun, personal | | me, you, it | +| PRP$ | pronoun, possessive | | my, your, our | +| RB | adverb | | extremely, loudly, hard | +| RBR | adverb, comparative | | better | +| RBS | adverb, superlative | | best | +| RP | adverb, particle | | about, off, up | +| SYM | symbol | | % | +| TO | infinitival to | | what to do | +| UH | interjection | | oh, oops, gosh | +| VB | verb, base form | | think | +| VBZ | verb, 3rd person singular present | | she thinks | +| VBP | verb, non-3rd person singular present | | I think | +| VBD | verb, past tense | | they thought | +| VBN | verb, past participle | | a sunken ship | +| VBG | verb, gerund or present participle | | thinking is fun | +| WDT | wh-determiner | | which, whatever, whichever | +| WP | wh-pronoun, personal | | what, who, whom | +| WP$ | wh-pronoun, possessive | | whose, whosever | +| WRB | wh-adverb | | where, when | + + @@ -104,18 +145,19 @@ for token in doc: # . 29 . True False . PUNCT ``` * **token.text** reprezentácia textu dokumentu v Unicode, -* **token.idx** znakový index začiatku, + +* **token.idx** znakový index začiatku, * **token.lemma_** základná podoba tokenu bez inflexných prípon, -* **token.is_punct** je to interpunkcia znamienka, -* **token.is_space** pozostáva token z bielych znakov, -* **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, + * **token.is_punct** je to interpunkcia znamienka, + * **token.is_space** pozostáva token z bielych znakov, + * **token.shape_** transformácia reťazca tokenov na zobrazenie ortografických prvkov, napríklad „Xxxx“ alebo „dd“ -* **token.pos_** hrubozrnná časť reči, -* **token.tag_** jemnozrnná reč. + * **token.pos_** hrubozrnná časť reči, + ***token.tag_** jemnozrnná reč. Poďme si rozobrať výstup prvého slova Next. Ako prvé sa nám vypíše samotné slovo, ďalej nasleduje, na ktorom indexe slovo začína. V našom prípade je to index 0. V ďalšom stĺpci máme slovo napísané pomocou malých písmen. Ďalšie dva stĺpce nám zisťujú, či dané slovo obsahuje interpunkčné znamienko (napr. apostrof) a či slovo nepozostáva z medzery. Predposledný stĺpec nám zisťuje, aký slovný druh (viď. tabuľku nižšie) je dané slovo v našom prípade je to podstatné meno atd. -#### Detekcia vety +Detekcia vety ```python doc = nlp("These are apples. These are oranges.") @@ -126,7 +168,7 @@ for sent in doc.sents: # These are apples. # These are oranges. ``` -#### Pomenovanie entit +Pomenovanie entit ```python import spacy