forked from KEMT/zpwiki
nlp presentation
This commit is contained in:
parent
457f6371a1
commit
98d3972bb1
318
pages/teachers/hladek/topics/nlp/mrakt/README.md
Normal file
318
pages/teachers/hladek/topics/nlp/mrakt/README.md
Normal file
@ -0,0 +1,318 @@
|
|||||||
|
---
|
||||||
|
published:true
|
||||||
|
---
|
||||||
|
# Spracovanie prirodzeného jazyka
|
||||||
|
|
||||||
|
Ing. Daniel Hládek PhD.
|
||||||
|
|
||||||
|
daniel.hladek@tuke.sk
|
||||||
|
|
||||||
|
---
|
||||||
|
Rastie potreba spracovávať veľké množstvo človekom vytvoreného textu alebo hovorenej reči
|
||||||
|
|
||||||
|
---
|
||||||
|
Čo je spracovanie prirodzeného jazyka
|
||||||
|
Natural Language Processing (NLP)
|
||||||
|
|
||||||
|
---
|
||||||
|
Kombinácia viacerých techník z oblasti:
|
||||||
|
|
||||||
|
- Teórie formálnych jazykov
|
||||||
|
- Štatistiky
|
||||||
|
- Strojového učenia
|
||||||
|
- Lingvistiky
|
||||||
|
- Psychológie
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
Spracovanie prirodzeného jazyka získavaním znalostí pomáha pri bežných činnostiach.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
dáta => informácie => znalosti
|
||||||
|
|
||||||
|
text => príznaky => zistenia
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Znalosť je užitočná informácia
|
||||||
|
|
||||||
|
(dá sa premeniť na peniaze).
|
||||||
|
|
||||||
|
---
|
||||||
|
Typické úlohy NLP
|
||||||
|
|
||||||
|
---
|
||||||
|
Motivačný príklad: Alexa, WolframAlpha, Siri
|
||||||
|
|
||||||
|
Počítač "porozumie" ľudskej komunikácii
|
||||||
|
|
||||||
|
---
|
||||||
|
Každý Váš deň:
|
||||||
|
|
||||||
|
Google, Facebook, Apple
|
||||||
|
|
||||||
|
---
|
||||||
|
Porozumenie otázke : Google, počítačové hry, WolframAlpha (Siri)
|
||||||
|
Fulltextové vyhľadávanie: Google
|
||||||
|
Cielenie reklamy: AdSense, eTarget
|
||||||
|
|
||||||
|
---
|
||||||
|
Ohodnotenie sentimentu a detekcia nevhodných alebo podozrivých príspevkov: Facebook , LinkedIn
|
||||||
|
|
||||||
|
Strojový preklad: Googe Translate
|
||||||
|
Detekcia spamu: Spam Assasin, Gmail
|
||||||
|
|
||||||
|
---
|
||||||
|
Získavanie informácií (Information Retrieval)
|
||||||
|
|
||||||
|
Vyhľadávanie na webe napr. Vyhľadanie stránok súvisiacich s “natural language processing”
|
||||||
|
|
||||||
|
Monitoring médií
|
||||||
|
Čo všetko sa napíše alebo odvysiela v televízii alebo v rádiu o mojej spoločnosti?
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
Cielenie reklamy
|
||||||
|
|
||||||
|
Analýza sentimentu na sociálnych sieťach
|
||||||
|
|
||||||
|
Dolovanie v dátach a získavanie znalostí
|
||||||
|
Aká je priemerná cena hamburgeru v Južnej Amerike?
|
||||||
|
|
||||||
|
---
|
||||||
|
Prepis textu (Machine Translation):
|
||||||
|
|
||||||
|
Strojový preklad. Napr. Ako sa povie “Dnes je pekný deň” po japonsky?
|
||||||
|
|
||||||
|
Parafrázovač. Napr. Akým iným spôsobom sa dá povedať “Mám rád bryndzové halušky”
|
||||||
|
|
||||||
|
Porozumenie jazyku (Natural Language Understanding)
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
Chatboty, Umelý psychiater.
|
||||||
|
|
||||||
|
“Umelá inteligencia” - počítač na lodi Enterpise, ktorý rozumie slovným príkazom kapitána a vie mu odpovedať na jeho požiadavky
|
||||||
|
Morfologická analýza (hľadanie gramatickej a sémantickej funkcie slova)
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
Prirodzený jazyk je veľmi neurčitý (ambiguity)
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
- To isté vieme povedať rôznymi spôsobmi
|
||||||
|
- Jedna výpoveď môže mať veľa rôznych významov
|
||||||
|
- Často pri komunikácii prenášame aj neverbálnu informáciu:
|
||||||
|
- Pocity
|
||||||
|
- Gestá
|
||||||
|
- Prízvuk a štýl reči
|
||||||
|
|
||||||
|
---
|
||||||
|
Homonymá:
|
||||||
|
|
||||||
|
Práve sedím v škole. Nevyznám sa v občianskom práve.
|
||||||
|
To auto stojí 10000 eúr. Auto stojí na kraji cesty.
|
||||||
|
|
||||||
|
---
|
||||||
|
Synonymá:
|
||||||
|
|
||||||
|
Išiel som do Bratislavy. Išiel som do Blavy.
|
||||||
|
|
||||||
|
---
|
||||||
|
Neurčité poradie slov vo vete:
|
||||||
|
|
||||||
|
Dnes je pekný deň. Pekný deň je dnes. Deň je dnes pekný.
|
||||||
|
|
||||||
|
---
|
||||||
|
Neurčitý význam slov:
|
||||||
|
|
||||||
|
„Po tráve sa nechodí, po tráve sa smeje”
|
||||||
|
|
||||||
|
---
|
||||||
|
Novotvary a slangové výrazy:
|
||||||
|
|
||||||
|
Vygoogli si to a potom to postni na fb.
|
||||||
|
|
||||||
|
---
|
||||||
|
Emócie a spoločenské konvencie:
|
||||||
|
|
||||||
|
Pane! Pekne ste sa doriadil!
|
||||||
|
|
||||||
|
---
|
||||||
|
Preklepy a brepty:
|
||||||
|
|
||||||
|
Viď prednašku.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
Počítačový jazyk je jednoznačný
|
||||||
|
Potrebujeme metódy pre prácu s neurčitosťou
|
||||||
|
|
||||||
|
---
|
||||||
|
Práca s neurčitosťou v NLP
|
||||||
|
|
||||||
|
- Klasifikácia kontextov alebo ich postupností
|
||||||
|
- Prepisovanie postupnosti symbolov
|
||||||
|
|
||||||
|
---
|
||||||
|
Klasifikácia kontextov
|
||||||
|
|
||||||
|
Mapovanie:
|
||||||
|
|
||||||
|
c => S
|
||||||
|
|
||||||
|
- C: kontext: Veta,Dokument
|
||||||
|
- S: symbol: Morfologická značka, léma, vetný člen...
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
Využitie
|
||||||
|
|
||||||
|
- detekcia sentimentu
|
||||||
|
- detekcia spamu
|
||||||
|
- identifikácia pomenovaných entít
|
||||||
|
|
||||||
|
---
|
||||||
|
Pri klasifikácii nám pomáha, ak vieme ktorá časť kontextu je dôležitá pre klasifikáciu.
|
||||||
|
|
||||||
|
- Slovo
|
||||||
|
- Koncovka, Koreň slova
|
||||||
|
- Predchádzajúce slovo, Nasledujúce slovo
|
||||||
|
- Typ prvého písmena
|
||||||
|
|
||||||
|
---
|
||||||
|
## Príznaková funkcia
|
||||||
|
|
||||||
|
Taká binárna funkcia kontextu, ktorá je pravdivá iba v prípade výskytu daného príznaku v kontexte.
|
||||||
|
Vhodná sada príznakových funkcií nám pomáha riešiť problém.
|
||||||
|
|
||||||
|
---
|
||||||
|
## Príznaková funkcia
|
||||||
|
|
||||||
|
Mapovanie
|
||||||
|
|
||||||
|
Symbol => jednotkový vektor
|
||||||
|
|
||||||
|
dnes => 0000100001
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
## Klasifikátor kontextov
|
||||||
|
|
||||||
|
Extrakcia príznakov, klasifikácia
|
||||||
|
|
||||||
|
symbol=> príznakový vektor => trieda
|
||||||
|
|
||||||
|
---
|
||||||
|
## Klasifikátor kontextov
|
||||||
|
|
||||||
|
- Ľudskú znalosť vo forme pravidiel
|
||||||
|
- Štatistické informácie z trénovacích korpusov
|
||||||
|
- Kombináciu oboch prístupov
|
||||||
|
|
||||||
|
---
|
||||||
|
## Pravidlá
|
||||||
|
|
||||||
|
- Slovníky
|
||||||
|
- Formálna gramatika
|
||||||
|
- Regulárne výrazy
|
||||||
|
|
||||||
|
---
|
||||||
|
## Štatistické prístupy
|
||||||
|
|
||||||
|
- HMM
|
||||||
|
- N-gram model
|
||||||
|
- Umelá neurónová sieť
|
||||||
|
|
||||||
|
---
|
||||||
|
## Hlboké neurónové siete
|
||||||
|
|
||||||
|
- LSTM, Konvolučné siete, Transformery
|
||||||
|
|
||||||
|
Výpočtovo náročné
|
||||||
|
|
||||||
|
---
|
||||||
|
## Prepisovanie postupnosti symbolov
|
||||||
|
|
||||||
|
Mapovanie:
|
||||||
|
|
||||||
|
postupnosť => iná postupnosť
|
||||||
|
|
||||||
|
---
|
||||||
|
## Prepisovanie postupnosti symbolov
|
||||||
|
|
||||||
|
- strojový preklad
|
||||||
|
- korekcia preklepov a gramatiky
|
||||||
|
- dialógové systémy
|
||||||
|
|
||||||
|
---
|
||||||
|
## Enkóder-Dekóder
|
||||||
|
|
||||||
|
Enkóder:
|
||||||
|
|
||||||
|
symboly => príznaky => významový vektor
|
||||||
|
|
||||||
|
Dekóder:
|
||||||
|
|
||||||
|
model a významový vektor => výstupné symboly
|
||||||
|
|
||||||
|
---
|
||||||
|
## Enkóder Dekóder
|
||||||
|
|
||||||
|
Hlboké neurónové siete
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
# Aj vy môžte robiť NLP
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Všeobecný programovací jazyk
|
||||||
|
|
||||||
|
Python
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Všeobecné knižnice pre strojové učenie
|
||||||
|
|
||||||
|
- keras
|
||||||
|
- pytorch
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Všeobecné knižnice pre NLP
|
||||||
|
|
||||||
|
- Spacy
|
||||||
|
- Flair
|
||||||
|
|
||||||
|
---
|
||||||
|
## Strojový preklad
|
||||||
|
|
||||||
|
- fairseq
|
||||||
|
|
||||||
|
---
|
||||||
|
## Extrakcia sémantických príznakov
|
||||||
|
|
||||||
|
- glove
|
||||||
|
- fasttext
|
||||||
|
- word2vec
|
||||||
|
|
||||||
|
---
|
||||||
|
## Získavanie informácií a spracovanie logov
|
||||||
|
|
||||||
|
Elasticsearch
|
||||||
|
|
||||||
|
---
|
||||||
|
## Dialógové systémy a porozumenie jazyku
|
||||||
|
|
||||||
|
RASA
|
||||||
|
|
||||||
|
---
|
||||||
|
## Bibliografia
|
||||||
|
|
||||||
|
Jurafsky, Martin: Natural Language Processing
|
||||||
|
Christopher Manning: Natural Language Processing, Stanford University Online Video Lectures
|
||||||
|
|
||||||
|
|
Loading…
Reference in New Issue
Block a user