1.9 KiB
1.9 KiB
Slovenské jazykové zdroje
POS
Multext East Anotovaný román George Orwell 1984 v 15 európskych jazykoch
NER
- Learning multilingual named entity recognition from Wikipedia- WIKI Ner?
- Cross-lingual Name Tagging and Linking for 282 Languages - NER anotácia aj slovenskej Wikipédie podľa anglickej
Parsing-POS
https://github.com/UniversalDependencies/UD_Slovak-SNK
Artificial Treebank with Ellipsis
Wordnet
Parallel Corpus
Europarlament
English-Slovak Parallel Corpus
Sentiment
Twitter sentiment for 15 European languages
Web
- Aranea
- SkTenTen automaticky POS anotovaný, prístup cez web rozhranie
- CommonCrawl Obsahuje aj slovenské dáta?
Wikipedia
Wikipedia vo formáte JSON Elasticsearch Bulk
Word Embedding
FastText Word Embedding from Common Crawl
Databázy zdrojov
https://www.clarin.eu/resource-families/manually-annotated-corpora