forked from KEMT/zpwiki
		
	nlp presentation
This commit is contained in:
		
							parent
							
								
									457f6371a1
								
							
						
					
					
						commit
						98d3972bb1
					
				
							
								
								
									
										318
									
								
								pages/teachers/hladek/topics/nlp/mrakt/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										318
									
								
								pages/teachers/hladek/topics/nlp/mrakt/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,318 @@ | |||||||
|  | --- | ||||||
|  | published:true | ||||||
|  | --- | ||||||
|  | # Spracovanie prirodzeného jazyka | ||||||
|  | 
 | ||||||
|  | Ing. Daniel Hládek PhD. | ||||||
|  | 
 | ||||||
|  | daniel.hladek@tuke.sk | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Rastie potreba spracovávať veľké množstvo človekom vytvoreného textu alebo hovorenej reči | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Čo je spracovanie prirodzeného jazyka | ||||||
|  | Natural Language Processing (NLP) | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Kombinácia viacerých techník z oblasti: | ||||||
|  | 
 | ||||||
|  | - Teórie formálnych jazykov | ||||||
|  | - Štatistiky | ||||||
|  | - Strojového učenia | ||||||
|  | - Lingvistiky | ||||||
|  | - Psychológie | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | Spracovanie prirodzeného jazyka získavaním znalostí pomáha pri bežných činnostiach. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | dáta => informácie => znalosti | ||||||
|  | 
 | ||||||
|  | text => príznaky => zistenia | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | ## Znalosť je užitočná informácia | ||||||
|  | 
 | ||||||
|  | (dá sa premeniť na peniaze). | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Typické úlohy NLP | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Motivačný príklad: Alexa, WolframAlpha, Siri | ||||||
|  | 
 | ||||||
|  | Počítač "porozumie" ľudskej komunikácii | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Každý Váš deň: | ||||||
|  | 
 | ||||||
|  | Google, Facebook, Apple | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Porozumenie otázke : Google, počítačové hry, WolframAlpha (Siri) | ||||||
|  | Fulltextové vyhľadávanie: Google | ||||||
|  | Cielenie reklamy: AdSense, eTarget | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Ohodnotenie sentimentu a detekcia nevhodných alebo podozrivých príspevkov: Facebook , LinkedIn | ||||||
|  | 
 | ||||||
|  | Strojový preklad: Googe Translate | ||||||
|  | Detekcia spamu: Spam Assasin, Gmail | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Získavanie informácií (Information Retrieval) | ||||||
|  | 
 | ||||||
|  | Vyhľadávanie na webe napr. Vyhľadanie stránok súvisiacich s “natural language processing” | ||||||
|  | 
 | ||||||
|  | Monitoring médií | ||||||
|  | Čo všetko sa napíše alebo odvysiela v televízii alebo v rádiu o mojej spoločnosti? | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | Cielenie reklamy | ||||||
|  | 
 | ||||||
|  | Analýza sentimentu na sociálnych sieťach | ||||||
|  | 
 | ||||||
|  | Dolovanie v dátach a získavanie znalostí | ||||||
|  | Aká je priemerná cena hamburgeru v Južnej Amerike? | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Prepis textu (Machine Translation): | ||||||
|  | 
 | ||||||
|  | Strojový preklad. Napr. Ako sa povie “Dnes je pekný deň” po japonsky? | ||||||
|  | 
 | ||||||
|  | Parafrázovač. Napr. Akým iným spôsobom sa dá povedať “Mám rád bryndzové halušky” | ||||||
|  | 
 | ||||||
|  | Porozumenie jazyku (Natural Language Understanding) | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | Chatboty, Umelý psychiater. | ||||||
|  | 
 | ||||||
|  | “Umelá inteligencia” - počítač na lodi Enterpise, ktorý rozumie slovným príkazom kapitána a vie mu odpovedať na jeho požiadavky | ||||||
|  | Morfologická analýza (hľadanie gramatickej a sémantickej funkcie slova) | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Prirodzený jazyk je veľmi neurčitý (ambiguity) | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | - To isté vieme povedať rôznymi spôsobmi | ||||||
|  | - Jedna výpoveď môže mať veľa rôznych významov | ||||||
|  | - Často pri komunikácii prenášame aj neverbálnu informáciu: | ||||||
|  |     - Pocity | ||||||
|  |     - Gestá | ||||||
|  |     - Prízvuk a štýl reči | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Homonymá: | ||||||
|  | 
 | ||||||
|  |         Práve sedím v škole. Nevyznám sa v občianskom práve. | ||||||
|  |         To auto stojí 10000 eúr. Auto stojí na kraji cesty. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Synonymá: | ||||||
|  | 
 | ||||||
|  |         Išiel som do Bratislavy. Išiel som do Blavy. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Neurčité poradie slov vo vete: | ||||||
|  | 
 | ||||||
|  |         Dnes je pekný deň. Pekný deň je dnes. Deň je dnes pekný. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Neurčitý význam slov: | ||||||
|  | 
 | ||||||
|  |         „Po tráve sa nechodí, po tráve sa smeje” | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Novotvary a slangové výrazy: | ||||||
|  | 
 | ||||||
|  | Vygoogli si to a potom to postni na fb. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Emócie a spoločenské konvencie: | ||||||
|  | 
 | ||||||
|  |         Pane! Pekne ste sa doriadil! | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Preklepy a brepty: | ||||||
|  | 
 | ||||||
|  |         Viď prednašku. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | Počítačový jazyk je jednoznačný | ||||||
|  | Potrebujeme metódy pre prácu s neurčitosťou | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Práca s neurčitosťou v NLP | ||||||
|  | 
 | ||||||
|  | - Klasifikácia kontextov alebo ich postupností | ||||||
|  | - Prepisovanie postupnosti symbolov | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Klasifikácia kontextov | ||||||
|  | 
 | ||||||
|  | Mapovanie: | ||||||
|  | 
 | ||||||
|  |         c => S | ||||||
|  | 
 | ||||||
|  | - C: kontext: Veta,Dokument | ||||||
|  | - S: symbol: Morfologická značka, léma, vetný člen... | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Využitie | ||||||
|  | 
 | ||||||
|  | - detekcia sentimentu | ||||||
|  | - detekcia spamu | ||||||
|  | - identifikácia pomenovaných entít | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | Pri klasifikácii nám pomáha, ak vieme ktorá časť kontextu je dôležitá pre klasifikáciu. | ||||||
|  | 
 | ||||||
|  | - Slovo | ||||||
|  | - Koncovka, Koreň slova | ||||||
|  | - Predchádzajúce slovo, Nasledujúce slovo | ||||||
|  | - Typ prvého písmena | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Príznaková funkcia | ||||||
|  | 
 | ||||||
|  | Taká binárna funkcia kontextu, ktorá je pravdivá iba v prípade výskytu daného príznaku v kontexte. | ||||||
|  | Vhodná sada príznakových funkcií nám pomáha riešiť problém. | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Príznaková funkcia | ||||||
|  | 
 | ||||||
|  | Mapovanie | ||||||
|  | 
 | ||||||
|  |         Symbol => jednotkový vektor | ||||||
|  | 
 | ||||||
|  |         dnes =>  0000100001 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Klasifikátor kontextov | ||||||
|  | 
 | ||||||
|  | Extrakcia príznakov, klasifikácia | ||||||
|  | 
 | ||||||
|  |         symbol=> príznakový vektor => trieda | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Klasifikátor kontextov | ||||||
|  | 
 | ||||||
|  | - Ľudskú znalosť vo forme pravidiel | ||||||
|  | - Štatistické informácie z trénovacích korpusov | ||||||
|  | - Kombináciu oboch prístupov | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Pravidlá | ||||||
|  | 
 | ||||||
|  | - Slovníky | ||||||
|  | - Formálna gramatika | ||||||
|  | - Regulárne výrazy | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Štatistické prístupy | ||||||
|  | 
 | ||||||
|  | - HMM | ||||||
|  | - N-gram model | ||||||
|  | - Umelá neurónová sieť | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Hlboké neurónové siete | ||||||
|  | 
 | ||||||
|  | - LSTM, Konvolučné siete, Transformery | ||||||
|  | 
 | ||||||
|  | Výpočtovo náročné | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Prepisovanie postupnosti symbolov | ||||||
|  | 
 | ||||||
|  | Mapovanie: | ||||||
|  | 
 | ||||||
|  |         postupnosť => iná postupnosť | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Prepisovanie postupnosti symbolov | ||||||
|  | 
 | ||||||
|  | - strojový preklad | ||||||
|  | - korekcia preklepov a gramatiky | ||||||
|  | - dialógové systémy | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Enkóder-Dekóder | ||||||
|  | 
 | ||||||
|  | Enkóder: | ||||||
|  | 
 | ||||||
|  |     symboly => príznaky => významový vektor | ||||||
|  | 
 | ||||||
|  | Dekóder: | ||||||
|  | 
 | ||||||
|  |     model a významový vektor => výstupné symboly | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Enkóder Dekóder | ||||||
|  | 
 | ||||||
|  | Hlboké neurónové siete | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | # Aj vy môžte robiť NLP | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | ## Všeobecný programovací jazyk | ||||||
|  | 
 | ||||||
|  | Python | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | ## Všeobecné knižnice pre strojové učenie | ||||||
|  | 
 | ||||||
|  | - keras | ||||||
|  | - pytorch | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | ## Všeobecné knižnice pre NLP | ||||||
|  | 
 | ||||||
|  | - Spacy | ||||||
|  | - Flair | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Strojový preklad | ||||||
|  | 
 | ||||||
|  | - fairseq | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Extrakcia sémantických príznakov | ||||||
|  | 
 | ||||||
|  | - glove | ||||||
|  | - fasttext | ||||||
|  | - word2vec | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Získavanie informácií a spracovanie logov | ||||||
|  | 
 | ||||||
|  | Elasticsearch | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Dialógové systémy a porozumenie jazyku | ||||||
|  | 
 | ||||||
|  | RASA | ||||||
|  | 
 | ||||||
|  | --- | ||||||
|  | ## Bibliografia | ||||||
|  | 
 | ||||||
|  | Jurafsky, Martin: Natural Language Processing | ||||||
|  | Christopher Manning: Natural Language Processing, Stanford University Online Video Lectures | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user