forked from KEMT/zpwiki
58 lines
2.0 KiB
Markdown
58 lines
2.0 KiB
Markdown
---
|
|
title: Than Trung Thanh
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2021]
|
|
tag: [demo,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
# Than Trung Thanh
|
|
|
|
## Bakalársky projekt 2020
|
|
|
|
Rozpoznávanie pomenovaných entít v slovenskom jazyku
|
|
|
|
- Tvorba korpusu a modelu pomocou nástrojov Spacy a Prodigy
|
|
- Práca na internom projekte [rozpoznávanie pomenovaných entít](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/named-entity).
|
|
|
|
Osobné stretnutie 23.9.2020
|
|
|
|
Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk.
|
|
Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.
|
|
|
|
Stretnutie 28.1.2020:
|
|
|
|
Stav:
|
|
- Preštudované Spacy a Prodigy.
|
|
- Pokus o spracovanie XML dump Wikipédia.
|
|
- Prečítané blogy.
|
|
- Urobená prezentácia
|
|
|
|
Úlohy:
|
|
|
|
- Začať pracovať na písomnej časti.
|
|
|
|
Predbežné zadanie:
|
|
|
|
- Vytvorte model pre rozpoznávanie pomenovaných entít v slovenčine. Využite [existujúci model](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
|
|
- Vyhodnotte model pre rozpoznávanie pomenovaných entít v slovenčine
|
|
|
|
Úlohy do ďalšieho stretnutia:
|
|
|
|
- preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
|
|
- Nainštalujte si prostredie Anaconda.
|
|
- Nainštalujte si a spustite trénovanie [existujúceho modelu](https://git.kemt.fei.tuke.sk/dano/spacy-skmodel).
|
|
- preštudujte materiály:
|
|
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp
|
|
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python
|
|
- https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy
|
|
|
|
Dalšie stretnutie odporúčam o 2 týždne.
|
|
|
|
Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.
|
|
|
|
|
|
|
|
|
|
|