2020-10-01 13:15:25 +00:00
---
title: Martin Wencel
published: true
taxonomy:
2020-10-02 14:06:48 +00:00
category: [bp2021]
2020-10-14 12:20:26 +00:00
tag: [demo,nlp,spacy]
2020-10-01 13:15:25 +00:00
author: Daniel Hladek
---
2020-09-22 10:46:44 +00:00
# Martin Wencel
2020-10-01 07:38:14 +00:00
Rok začiatku štúdia: 2018
Podmienkou pre získanie zápočtu je účasť na konzultácii min. raz za 2 týždne. Menej ako 6 konzultácií za semester je dôvod pre zníženie hodnotenia alebo neudelenie zápočtu.
Komunikácia je možná aj cez [MS Teams ](https://teams.microsoft.com/l/team/19%3aa8596a401a3842e5b91ac918a2a0afb1%40thread.tacv2/conversations?groupId=4fc0c627-d424-4587-b73a-2e47509862e9&tenantId=1c9f27ef-fee6-45f4-9a64-255a8c8e25a5 ).
2020-10-01 08:08:36 +00:00
Konzultačné hodiny sú v piatok 9:20-14:00.
2020-10-01 07:38:14 +00:00
2020-10-01 08:08:36 +00:00
## Bakalársky projekt 2020
2020-10-01 07:38:14 +00:00
2020-10-01 07:48:10 +00:00
Názov: Online demonštrácia spracovania slovenského prirodzeného jazyka
2020-10-09 10:57:37 +00:00
Cieľ:
- Vytvoriť demonštráciu spracovania slovenského jazyka pomocou knižnice spacy
2021-02-02 12:41:50 +00:00
Výstupy:
2021-02-02 12:55:40 +00:00
- Aplikácia vie robiť pomocou spacy tokenizácia, morfologická analýza, parsing a named entity recognition pre slovenčinu a angličtinu.
2021-02-02 12:41:50 +00:00
- [Zdrojové kódy ](https://git.kemt.fei.tuke.sk/mw223on/bp2020/ )
2021-02-02 12:55:40 +00:00
Zásobník úloh:
- Vymyslite a doplňte REST API pre služby knižnice Spacy. Cieľ je vedieť využiť Spacy pomocou curl, alebo pythonu cez HTTP na spracovane textových súborov.
- Vymyslieť ako spracovať väčšie textové súbory pomocou REST API alebo podobného?
2021-02-02 12:41:50 +00:00
2020-10-01 07:48:10 +00:00
Návrh na zadanie:
2021-02-02 12:55:40 +00:00
1. Vypracujte teoretický úvod do spracovania prirodzeného slovenského jazyka. Vysvetlite čo to je parsing, morfologická analýza a rozpoznávanie pomenovaných entít a akými metódami sa vykonávajú.
1. Podrobne vysvetlite, ako pracuje parsing, morfologická analýza a rozpoznávanie pomenovaných entít v knižnici Spacy.
1. Natrénujte a vyhodnoťte model pre spracovanie slovenského a anglického jazyka v knižnici Spacy.
1. Vytvorte demonštračnú webovú aplikáciu pomocou ktorej je možné vyskúšať natrénované modely.
2020-10-01 07:48:10 +00:00
1. Navrhnite možné zlepšenia Vami vytvorenej aplikácie.
2020-10-19 11:45:01 +00:00
2021-02-02 12:41:50 +00:00
Stretnutie:
- Práca na frontende
- Dorobená slovenčina - prerobené spacy explain. Vysvetľuje tagy.
2021-02-02 12:55:40 +00:00
- Urobené rozhranie na spracovanie súborov.
2021-02-02 12:41:50 +00:00
2020-12-15 11:21:05 +00:00
Virtuálne stretnutie 15.12.:
Stav:
- Pripravený Docker deployment.
- Aplikácia funguje pre anglický jazyk.
2021-02-02 12:55:40 +00:00
- Práca na písomnej časti
2020-12-15 11:21:05 +00:00
Do ďalšieho stretnutia:
- Dorobiť slovenčinu
- Zlepšiť dizajn
2021-02-02 12:55:40 +00:00
2020-12-15 11:21:05 +00:00
2020-10-30 13:06:18 +00:00
2020-11-27 11:14:41 +00:00
Virtuálne stretnutie 27.11.:
Stav:
- Aplikácia prerobená do Flask-u. [Zdrojové kódy ](https://git.kemt.fei.tuke.sk/mw223on/bp2020/src/branch/master ) sú na Gite.
Úlohy na ďalšie stretnutie:
- Pokračovať na práci na aplikácii.
- Pripraviť deployment. Vytvoriť Python balíček (setup.py, requirements.txt, MANIFEST.in).
2020-11-27 11:18:23 +00:00
- Pripraviť Dockerfile. Môžete použiť obraz tiangolo/meinheld-gunicorn-flask:python3.7
2020-11-27 11:14:41 +00:00
- Pokračovať v písaní.
2020-11-20 11:12:36 +00:00
Virtuálne stretnutie 20.11.:
Stav:
- práca na písomnej časti
- komplet prerobený frontend (css a html) a backend (hug).
2020-11-20 11:15:05 +00:00
Úlohy na ďalšie stretnutie:
2020-11-20 11:28:11 +00:00
- dať kódy na GIT.
- prepísať frontend a backend do Flask,
2020-10-30 13:06:18 +00:00
2020-10-30 12:44:10 +00:00
Virtuálne stretnutie 30.10.:
Stav:
- Modifikovaná existujúca aplikácia "spacy-streamlit", zdrojové kóódy sú na GITe podľa pokynov z minulého stretnutia.
2020-10-30 12:57:21 +00:00
- Obsahuje aj formulár, neobsahuje REST API
2020-10-30 13:06:18 +00:00
Úlohy do ďalšieho stretnutia:
2020-10-30 12:57:21 +00:00
- Pokračujte v písaní. Prečítajte si odborné články na tému "dependency parsing" a vypracujte poznámky čo ste sa dozvedeli. Poznačte si zdroj.
- Pokkračujte v práci na demonštračnej webovej aplikácii.
2020-10-30 12:44:10 +00:00
2020-10-19 11:45:01 +00:00
Virtuálne stretnutie 19.10.:
Stav:
- Vypracované a odovzdané poznámky k bakalárskej práci, obsahujú výpisy z literatúry.
- Vytvorený repozitár. https://git.kemt.fei.tuke.sk/mw223on/bp2020
- Nainštalovaný a spustený slovenský Spacy model.
- Nainštalované Spacy REST Api https://github.com/explosion/spacy-services
2020-10-19 12:14:22 +00:00
- Vyskúšané demo Display so slovenským modelom
2020-10-19 11:45:01 +00:00
2020-10-19 12:14:22 +00:00
Úlohy na ďalšie stretnutie:
- Pripravte webovú aplikáciu ktorá bude prezentovať rozpoznávanie závislostí a pomenovaných entít v slovenskom jayzyku. Mala by sa skladať z frontentu a backendu.
- zapíšte potrebné Python balíčky do súboru "requirements.txt"
- Vytvorte skript na inštaláciu aplikácie pomocou pip.
- Vytvorte skript pre spustenie backendu aj frontendu. Výsledky dajte do repozitára.
- Vytvorte návrh na frontend (HTML + CSS).
- Pozrite na zdrojové kódy Spacy a zistite, čo presne robí príkaz display.serve
- Vysledky dajte do repozitára.
2020-10-09 10:57:37 +00:00
2020-10-09 10:55:26 +00:00
Virtuálne stretnutie 9.10.
Stav:
- nainštalovaná anaconda, docker aj linux, spacy, latex
- prečítané niečo o NLP (Speech and Language Processing, Jurafsky and Martin). Blogy a záverečné práce.
- vypracované poznámky
Úlohy do ďalšieho stretnutia:
- odovzdať vypracované poznámky do Moodlu.
2020-10-09 11:29:35 +00:00
- nainštalujte a spustite slovenský [spacy model ](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel )
2020-10-09 11:20:41 +00:00
- Pozrite si , nainštalujte a spustite https://github.com/explosion/spacy-services
- Skúste to upraviť tak, aby displacy využíval slovenský model
- Vyskúšajte komunikovať so servrom pomocou CURL
- študujte jazyk Python a web framework hug
2020-10-09 10:55:26 +00:00
2020-10-01 08:08:36 +00:00
Stretnutie 1.10.2O20:
Na štúdium:
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics
- https://student.kemt.fei.tuke.sk/predmety/zct
- Dive into Python 3
Na vypracovanie:
- Prečítajte si čo je to "natural language processing" a urobte si poznámky. Do poznámok si zapíšte čo ste sa dozvedeli a zdroj.
- Nainštalujte si prostredie Anaconda
- Nainštalujte si Docker
- Skúste rozbehať demo z https://github.com/jgontrum/spacy-api-docker
Na zlepšenie:
- Chceme vybrať metódu NLP ktorej sa budeme venovať.
- chceme vybrať knižnicu alebo demo ktoré budeme prezentovať.