diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 99e3ab45..ecbcae1b 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -28,6 +28,35 @@ Ciele DP: - Porovnať viacero metód na vyhľadávanie v slovenskom texte - BM25, TF IDF, WordEmbedding, SentenceTransformers, Alebo iné embeddingy. # Diplomový projekt 2 +Stretnutie 9.11. 2023 + +Stav - urobené úlohy: +- Je anotovaných cca 240 otázok, ku každej cca 20 dokumentov +- [x] Pridať kódy na Git +- [x] Napísať návod pre anotovanie +- [x] Spaviť jednu stránku pre vypísanie počtu už anotovaných otázok z danej sady +- [x] Pridať do indexu search, každému kontextu ID +- [x] Pri vyhľadávaní sprrávnych odpovedí uložiť uložiť tak, aby bol súbor odpovede, ktorý bude mať parametere id_odpovede a k nemu priradený text odpovede +- [x] Rozdelenie anotačného datasetu na sady (anotačné sady je ich 8) +- [x] Zamiešanie správnych odpovedí okrem odpovede zo skquad tá je na index = 0 vždy +- [x] Prerobiť anotačnú aplikáciu tak, aby mala po anotovaní štruktúru id správnej odpovede a kategóriu. +- [x] Pri anotovaní budem ťahať z id odpovede presný text z toho datasetu +- [x] Anotovacie kategórie: sú na gite skwiki +- [x] Zapísať nové veci a poznámky do Mira +- [x] Zmeniť v Mire štruktúru anotačného aj finálneho datasetu +- [x] Opovedí môže byť rôzne množstvo nie iba po jednej odpove + +Úlohy: + +- Pokračovať v anotácia prvých a druhých 1000 otázok +- Pripraviť experimenty pre vyhodnotenie presnosti s novými dátami +- Pokračovať v písaní. + +Zásobník úloh: + +- Zvážiť indexovať kratšie kontexty. Nevýhody: vznikne neporiadok. Výhody: Môže sa urýchliť práca anotátorov. +- Zvážiť nasadenie, úpravu django appky a anotovať s náhodnými študentami. + Stretnutie 2.11.2023