dmytro_ushatenko/pages/topics/spacy/README.md

48 lines
1.4 KiB
Markdown
Raw Normal View History

2020-01-26 13:19:43 +00:00
---
2021-01-26 11:01:41 +00:00
title: Podpora slovenčiny v knižnici Spacy
2020-10-01 14:05:57 +00:00
published: true
taxonomy:
category: [project]
tag: [spacy,nn,pos,ner,annotation,nlp]
author: Daniel Hladek
2020-01-26 13:19:43 +00:00
---
2021-01-26 11:01:41 +00:00
2020-04-14 14:48:36 +00:00
[Trénovanie modelov Spacy](https://spacy.io/usage/training)
2021-12-02 14:45:30 +00:00
## Ciele
- Vytvoriť modul v jazyku Python pre podporu slovenčiny
- Natrénovať štatistické modely:
- pre morfologickú analýzu
- rozpoznávanie pomenovaných entít
2021-12-02 14:45:30 +00:00
- Unifikovaný systém pre predspracovanie slovenského jazyka
- Podporiť dialógový systém RASA
## Úlohy
- Zahrnúť transformery a predtrénované modely
- Nájsť optimálne hyperparametre
- Natrénovať vlastné WordEmbedding (fasttext).
## Súvisiace projekty
2021-12-02 14:46:50 +00:00
- Anotácia pomenovaných entít pomocu frameworku [Prodigy](/topics/named-entity).
- [Predtrénovanie jazykového modelu](/topics/bert)
## Repozitár
2021-12-02 14:39:06 +00:00
- https://github.com/hladek/spacy-skmodel
2021-12-02 14:45:30 +00:00
- [Repozitár Jozef Olekšák](https://git.kemt.fei.tuke.sk/jo673fv/sk-spacy)(slovenské stop words a pravidlá)
2020-04-14 14:46:05 +00:00
- https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely
## Ľudia
2021-01-27 07:54:02 +00:00
- [Maroš Harahus](/students/2016/maros_harahus) (štatistické značkovanie)
2021-12-02 14:39:06 +00:00
- [Kristián Sopkovič](/students/2019/kristian_sopokovic) (vylepšenie parametrov, transformery)
2021-12-02 14:39:50 +00:00
## Ukončené projekty
2021-12-02 14:45:30 +00:00
- Jozef Olekšák (slovenské stop words a pravidlá),
2020-10-01 14:05:57 +00:00
- [Lukáš Pokrývka](/students/2016/lukas_pokryvka) (Word Embedding Modely)
2021-01-27 07:54:02 +00:00
- [Martin Wencel](/students/2018/martin_wencel) demo aplikácia