2020-10-01 13:15:25 +00:00
---
title: Than Trung Thanh
published: true
taxonomy:
2020-10-01 13:46:14 +00:00
category: [bp2021]
2020-10-01 13:15:25 +00:00
tag: [demo,nlp]
author: Daniel Hladek
---
2020-09-22 10:46:44 +00:00
# Than Trung Thanh
2020-09-23 11:03:17 +00:00
## Bakalársky projekt 2020
Rozpoznávanie pomenovaných entít v slovenskom jazyku
- Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy
2020-09-23 11:06:23 +00:00
- Práca na internom projekte [rozpoznávanie pomenovaných entít ](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/named-entity ).
2021-01-28 13:04:24 +00:00
- Využite [existujúci model ](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel ).
Predbežné zadanie:
- Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí.
- Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy .
2021-01-28 13:08:25 +00:00
- Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít.
- Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine.
2021-01-28 13:04:24 +00:00
- Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu.
2020-09-23 11:03:17 +00:00
2020-09-23 11:37:48 +00:00
Osobné stretnutie 23.9.2020
Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk.
Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.
2021-01-28 12:48:23 +00:00
Stretnutie 28.1.2020:
Stav:
- Preštudované Spacy a Prodigy.
- Pokus o spracovanie XML dump Wikipédia.
2021-01-28 12:51:36 +00:00
- Prečítané blogy.
2021-01-28 13:04:24 +00:00
- Urobená prezentácia.
- Natrénovaný model.
2021-01-28 12:51:36 +00:00
Úlohy:
2021-01-28 13:08:25 +00:00
- Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany.
2021-01-28 12:48:23 +00:00
2020-09-23 11:37:48 +00:00
Úlohy do ďalšieho stretnutia:
- preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
- Nainštalujte si prostredie Anaconda.
- Nainštalujte si a spustite trénovanie [existujúceho modelu ](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel ).
2020-09-23 11:43:23 +00:00
- preštudujte materiály:
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy
Dalšie stretnutie odporúčam o 2 týždne.
2020-09-23 12:32:01 +00:00
Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.
2020-09-23 11:37:48 +00:00
2020-09-23 11:03:17 +00:00