diff --git a/pages/topics/nlp/mrakt/README.md b/pages/topics/nlp/mrakt/README.md deleted file mode 100644 index 07dbc068..00000000 --- a/pages/topics/nlp/mrakt/README.md +++ /dev/null @@ -1,318 +0,0 @@ ---- -published:true ---- -# Spracovanie prirodzeného jazyka - -Ing. Daniel Hládek PhD. - -daniel.hladek@tuke.sk - ---- -Rastie potreba spracovávať veľké množstvo človekom vytvoreného textu alebo hovorenej reči - ---- -Čo je spracovanie prirodzeného jazyka -Natural Language Processing (NLP) - ---- -Kombinácia viacerých techník z oblasti: - -- Teórie formálnych jazykov -- Štatistiky -- Strojového učenia -- Lingvistiky -- Psychológie - ---- - -Spracovanie prirodzeného jazyka získavaním znalostí pomáha pri bežných činnostiach. - ---- - -dáta => informácie => znalosti - -text => príznaky => zistenia - ---- - -## Znalosť je užitočná informácia - -(dá sa premeniť na peniaze). - ---- -Typické úlohy NLP - ---- -Motivačný príklad: Alexa, WolframAlpha, Siri - -Počítač "porozumie" ľudskej komunikácii - ---- -Každý Váš deň: - -Google, Facebook, Apple - ---- -Porozumenie otázke : Google, počítačové hry, WolframAlpha (Siri) -Fulltextové vyhľadávanie: Google -Cielenie reklamy: AdSense, eTarget - ---- -Ohodnotenie sentimentu a detekcia nevhodných alebo podozrivých príspevkov: Facebook , LinkedIn - -Strojový preklad: Googe Translate -Detekcia spamu: Spam Assasin, Gmail - ---- -Získavanie informácií (Information Retrieval) - -Vyhľadávanie na webe napr. Vyhľadanie stránok súvisiacich s “natural language processing” - -Monitoring médií -Čo všetko sa napíše alebo odvysiela v televízii alebo v rádiu o mojej spoločnosti? - ---- - -Cielenie reklamy - -Analýza sentimentu na sociálnych sieťach - -Dolovanie v dátach a získavanie znalostí -Aká je priemerná cena hamburgeru v Južnej Amerike? - ---- -Prepis textu (Machine Translation): - -Strojový preklad. Napr. Ako sa povie “Dnes je pekný deň” po japonsky? - -Parafrázovač. Napr. Akým iným spôsobom sa dá povedať “Mám rád bryndzové halušky” - -Porozumenie jazyku (Natural Language Understanding) - ---- - -Chatboty, Umelý psychiater. - -“Umelá inteligencia” - počítač na lodi Enterpise, ktorý rozumie slovným príkazom kapitána a vie mu odpovedať na jeho požiadavky -Morfologická analýza (hľadanie gramatickej a sémantickej funkcie slova) - - ---- -Prirodzený jazyk je veľmi neurčitý (ambiguity) - ---- - -- To isté vieme povedať rôznymi spôsobmi -- Jedna výpoveď môže mať veľa rôznych významov -- Často pri komunikácii prenášame aj neverbálnu informáciu: - - Pocity - - Gestá - - Prízvuk a štýl reči - ---- -Homonymá: - - Práve sedím v škole. Nevyznám sa v občianskom práve. - To auto stojí 10000 eúr. Auto stojí na kraji cesty. - ---- -Synonymá: - - Išiel som do Bratislavy. Išiel som do Blavy. - ---- -Neurčité poradie slov vo vete: - - Dnes je pekný deň. Pekný deň je dnes. Deň je dnes pekný. - ---- -Neurčitý význam slov: - - „Po tráve sa nechodí, po tráve sa smeje” - ---- -Novotvary a slangové výrazy: - -Vygoogli si to a potom to postni na fb. - ---- -Emócie a spoločenské konvencie: - - Pane! Pekne ste sa doriadil! - ---- -Preklepy a brepty: - - Viď prednašku. - ---- - -Počítačový jazyk je jednoznačný -Potrebujeme metódy pre prácu s neurčitosťou - ---- -Práca s neurčitosťou v NLP - -- Klasifikácia kontextov alebo ich postupností -- Prepisovanie postupnosti symbolov - ---- -Klasifikácia kontextov - -Mapovanie: - - c => S - -- C: kontext: Veta,Dokument -- S: symbol: Morfologická značka, léma, vetný člen... - - ---- -Využitie - -- detekcia sentimentu -- detekcia spamu -- identifikácia pomenovaných entít - ---- -Pri klasifikácii nám pomáha, ak vieme ktorá časť kontextu je dôležitá pre klasifikáciu. - -- Slovo -- Koncovka, Koreň slova -- Predchádzajúce slovo, Nasledujúce slovo -- Typ prvého písmena - ---- -## Príznaková funkcia - -Taká binárna funkcia kontextu, ktorá je pravdivá iba v prípade výskytu daného príznaku v kontexte. -Vhodná sada príznakových funkcií nám pomáha riešiť problém. - ---- -## Príznaková funkcia - -Mapovanie - - Symbol => jednotkový vektor - - dnes => 0000100001 - - ---- -## Klasifikátor kontextov - -Extrakcia príznakov, klasifikácia - - symbol=> príznakový vektor => trieda - ---- -## Klasifikátor kontextov - -- Ľudskú znalosť vo forme pravidiel -- Štatistické informácie z trénovacích korpusov -- Kombináciu oboch prístupov - ---- -## Pravidlá - -- Slovníky -- Formálna gramatika -- Regulárne výrazy - ---- -## Štatistické prístupy - -- HMM -- N-gram model -- Umelá neurónová sieť - ---- -## Hlboké neurónové siete - -- LSTM, Konvolučné siete, Transformery - -Výpočtovo náročné - ---- -## Prepisovanie postupnosti symbolov - -Mapovanie: - - postupnosť => iná postupnosť - ---- -## Prepisovanie postupnosti symbolov - -- strojový preklad -- korekcia preklepov a gramatiky -- dialógové systémy - ---- -## Enkóder-Dekóder - -Enkóder: - - symboly => príznaky => významový vektor - -Dekóder: - - model a významový vektor => výstupné symboly - ---- -## Enkóder Dekóder - -Hlboké neurónové siete - ---- - -# Aj vy môžte robiť NLP - ---- - -## Všeobecný programovací jazyk - -Python - ---- - -## Všeobecné knižnice pre strojové učenie - -- keras -- pytorch - ---- - -## Všeobecné knižnice pre NLP - -- Spacy -- Flair - ---- -## Strojový preklad - -- fairseq - ---- -## Extrakcia sémantických príznakov - -- glove -- fasttext -- word2vec - ---- -## Získavanie informácií a spracovanie logov - -Elasticsearch - ---- -## Dialógové systémy a porozumenie jazyku - -RASA - ---- -## Bibliografia - -Jurafsky, Martin: Natural Language Processing -Christopher Manning: Natural Language Processing, Stanford University Online Video Lectures - -