dmytro_ushatenko/pages/students/2018/martin_wencel/README.md

5.7 KiB

title published taxonomy
Martin Wencel true
category tag author
bp2021
demo
nlp
spacy
Daniel Hladek

Martin Wencel

Rok začiatku štúdia: 2018

Podmienkou pre získanie zápočtu je účasť na konzultácii min. raz za 2 týždne. Menej ako 6 konzultácií za semester je dôvod pre zníženie hodnotenia alebo neudelenie zápočtu. Komunikácia je možná aj cez MS Teams. Konzultačné hodiny sú v piatok 9:20-14:00.

Bakalársky projekt 2020

Názov: Online demonštrácia spracovania slovenského prirodzeného jazyka

Cieľ:

  • Vytvoriť demonštráciu spracovania slovenského jazyka pomocou knižnice spacy

Výstupy:

  • Aplikácia vie robiť pomocou spacy tokenizácia, morfologická analýza, parsing a named entity recognition pre slovenčinu a angličtinu.
  • Zdrojové kódy

Zásobník úloh:

  • Vymyslite a doplňte REST API pre služby knižnice Spacy. Cieľ je vedieť využiť Spacy pomocou curl, alebo pythonu cez HTTP na spracovane textových súborov.
  • Vymyslieť ako spracovať väčšie textové súbory pomocou REST API alebo podobného?

Návrh na zadanie:

  1. Vypracujte teoretický úvod do spracovania prirodzeného slovenského jazyka. Vysvetlite čo to je parsing, morfologická analýza a rozpoznávanie pomenovaných entít a akými metódami sa vykonávajú.
  2. Podrobne vysvetlite, ako pracuje parsing, morfologická analýza a rozpoznávanie pomenovaných entít v knižnici Spacy.
  3. Natrénujte a vyhodnoťte model pre spracovanie slovenského a anglického jazyka v knižnici Spacy.
  4. Vytvorte demonštračnú webovú aplikáciu pomocou ktorej je možné vyskúšať natrénované modely.
  5. Navrhnite možné zlepšenia Vami vytvorenej aplikácie.

Stretnutie:

  • Práca na frontende
  • Dorobená slovenčina - prerobené spacy explain. Vysvetľuje tagy.
  • Urobené rozhranie na spracovanie súborov.

Do ďalšieho stretnutia:

  • Skompletizovať a vykonať deployment.

Virtuálne stretnutie 15.12.:

Stav:

  • Pripravený Docker deployment.
  • Aplikácia funguje pre anglický jazyk.
  • Práca na písomnej časti

Do ďalšieho stretnutia:

  • Dorobiť slovenčinu
  • Zlepšiť dizajn

Virtuálne stretnutie 27.11.:

Stav:

Úlohy na ďalšie stretnutie:

  • Pokračovať na práci na aplikácii.
  • Pripraviť deployment. Vytvoriť Python balíček (setup.py, requirements.txt, MANIFEST.in).
  • Pripraviť Dockerfile. Môžete použiť obraz tiangolo/meinheld-gunicorn-flask:python3.7
  • Pokračovať v písaní.

Virtuálne stretnutie 20.11.:

Stav:

  • práca na písomnej časti
  • komplet prerobený frontend (css a html) a backend (hug).

Úlohy na ďalšie stretnutie:

  • dať kódy na GIT.
  • prepísať frontend a backend do Flask,

Virtuálne stretnutie 30.10.:

Stav:

  • Modifikovaná existujúca aplikácia "spacy-streamlit", zdrojové kóódy sú na GITe podľa pokynov z minulého stretnutia.
  • Obsahuje aj formulár, neobsahuje REST API

Úlohy do ďalšieho stretnutia:

  • Pokračujte v písaní. Prečítajte si odborné články na tému "dependency parsing" a vypracujte poznámky čo ste sa dozvedeli. Poznačte si zdroj.
  • Pokkračujte v práci na demonštračnej webovej aplikácii.

Virtuálne stretnutie 19.10.:

Stav:

Úlohy na ďalšie stretnutie:

  • Pripravte webovú aplikáciu ktorá bude prezentovať rozpoznávanie závislostí a pomenovaných entít v slovenskom jayzyku. Mala by sa skladať z frontentu a backendu.
  • zapíšte potrebné Python balíčky do súboru "requirements.txt"
  • Vytvorte skript na inštaláciu aplikácie pomocou pip.
  • Vytvorte skript pre spustenie backendu aj frontendu. Výsledky dajte do repozitára.
  • Vytvorte návrh na frontend (HTML + CSS).
  • Pozrite na zdrojové kódy Spacy a zistite, čo presne robí príkaz display.serve
  • Vysledky dajte do repozitára.

Virtuálne stretnutie 9.10.

Stav:

  • nainštalovaná anaconda, docker aj linux, spacy, latex
  • prečítané niečo o NLP (Speech and Language Processing, Jurafsky and Martin). Blogy a záverečné práce.
  • vypracované poznámky

Úlohy do ďalšieho stretnutia:

  • odovzdať vypracované poznámky do Moodlu.
  • nainštalujte a spustite slovenský spacy model
  • Pozrite si , nainštalujte a spustite https://github.com/explosion/spacy-services
  • Skúste to upraviť tak, aby displacy využíval slovenský model
  • Vyskúšajte komunikovať so servrom pomocou CURL
  • študujte jazyk Python a web framework hug

Stretnutie 1.10.2O20:

Na štúdium:

Na vypracovanie:

  • Prečítajte si čo je to "natural language processing" a urobte si poznámky. Do poznámok si zapíšte čo ste sa dozvedeli a zdroj.
  • Nainštalujte si prostredie Anaconda
  • Nainštalujte si Docker
  • Skúste rozbehať demo z https://github.com/jgontrum/spacy-api-docker

Na zlepšenie:

  • Chceme vybrať metódu NLP ktorej sa budeme venovať.
  • chceme vybrať knižnicu alebo demo ktoré budeme prezentovať.