Update 'pages/students/2019/michal_stromko/README.md'
This commit is contained in:
parent
2278572956
commit
cac1df1b02
@ -28,6 +28,35 @@ Ciele DP:
|
||||
- Porovnať viacero metód na vyhľadávanie v slovenskom texte - BM25, TF IDF, WordEmbedding, SentenceTransformers, Alebo iné embeddingy.
|
||||
|
||||
# Diplomový projekt 2
|
||||
Stretnutie 9.11. 2023
|
||||
|
||||
Stav - urobené úlohy:
|
||||
- Je anotovaných cca 240 otázok, ku každej cca 20 dokumentov
|
||||
- [x] Pridať kódy na Git
|
||||
- [x] Napísať návod pre anotovanie
|
||||
- [x] Spaviť jednu stránku pre vypísanie počtu už anotovaných otázok z danej sady
|
||||
- [x] Pridať do indexu search, každému kontextu ID
|
||||
- [x] Pri vyhľadávaní sprrávnych odpovedí uložiť uložiť tak, aby bol súbor odpovede, ktorý bude mať parametere id_odpovede a k nemu priradený text odpovede
|
||||
- [x] Rozdelenie anotačného datasetu na sady (anotačné sady je ich 8)
|
||||
- [x] Zamiešanie správnych odpovedí okrem odpovede zo skquad tá je na index = 0 vždy
|
||||
- [x] Prerobiť anotačnú aplikáciu tak, aby mala po anotovaní štruktúru id správnej odpovede a kategóriu.
|
||||
- [x] Pri anotovaní budem ťahať z id odpovede presný text z toho datasetu
|
||||
- [x] Anotovacie kategórie: sú na gite skwiki
|
||||
- [x] Zapísať nové veci a poznámky do Mira
|
||||
- [x] Zmeniť v Mire štruktúru anotačného aj finálneho datasetu
|
||||
- [x] Opovedí môže byť rôzne množstvo nie iba po jednej odpove
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračovať v anotácia prvých a druhých 1000 otázok
|
||||
- Pripraviť experimenty pre vyhodnotenie presnosti s novými dátami
|
||||
- Pokračovať v písaní.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zvážiť indexovať kratšie kontexty. Nevýhody: vznikne neporiadok. Výhody: Môže sa urýchliť práca anotátorov.
|
||||
- Zvážiť nasadenie, úpravu django appky a anotovať s náhodnými študentami.
|
||||
|
||||
|
||||
Stretnutie 2.11.2023
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user