820 B
820 B
Diplomový projekt 1 2020
-
vytvorenie a spustenie docker kontajneru
./build-docker.sh
docker run -it -p 8080:8080 -v ${PWD}:/work prodigy bash
(v mojom prípade):
winpty docker run --name prodigy -it -p 8080:8080 -v C://Users/jakub/Desktop/annotation/work prodigy bash
-
príprava dát
stiahnutie článkov z wiki pomocou nástroja dataminer, uložené v súbore dataminer.csv
vytvorený skript text_to_sent.py rozdelí text na jednotlivé vety a zapíše ich do súboru textfile.csvcd ner
./01_text_to_sent.sh
-
spustenie anotačného procesu pre NER s návrhmi od modelu
./02_ner_correct.sh
-
anotované dáta možno exportovať vo formáte jsonl potrebnom pre spracovanie vo spacy
./03_ner_export.sh