From 23565f64942fa8d68782f24bad1deae37e76c415 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 20 Feb 2023 08:59:39 +0000 Subject: [PATCH] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 19 +++++++++++++++++-- 1 file changed, 17 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index c70068bcd..d8ccc587e 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -29,7 +29,7 @@ Ciele DP: # Diplomovy projekt 1 -Ciele na semester (spolu s K. Sopkovicom) +Nápady na semester (spolu s K. Sopkovicom) - Chceme rozbehat demo vyhľadávanie. Existuje streamlit verzia. - Chceme natrénovať a vyhodbnotiť model pre sémantické vyhľadávanie. Existuje prvá verzia sentence transformera (Cross Encoder, Dual Encoder natrénovaná na SK QUAD. Porovnať s STS SlovakBERT. @@ -41,9 +41,24 @@ Ciele na semester (spolu s K. Sopkovicom) - Vypracovať prehľad článkov, ktoré riešia kompletné sémantické vyhľadávanie. - Podrobne opísať proces fungovania a trénovanie sentence transformera. Princíp dual-encoder, cross-encoder. - Pripraviť multi-lingual experiment na vyhľadávanie, napr. Angličtina, Slovenčina, Nemčina. +- Vyskúšať vyhľadávanie v inej doméne (noviny, mestské dokumenty). + +Stretnutie 20.2.2023 + +Úlohy: + +- Spravte QA demo pomocou streamlit. Najprv vytvorte faiss index, do pamäte nahrajte všetky paragrafy. +- Dotaz transformuje na vektor. Nájdite 5 najlepších odsekov. Vykonajte QA na všety odseky. Zobrazte odseky. Zobrazte najlepšiu odpoveď a názov dokumentu kde sa nachádza. +- Modely sa nachádzajú na HF TUKE-DeutscheTelekom. + +Zásobník: + +- Na uloženie odsekov a vektorov vyberte a použite vhodnú databázu (faiss, sqlite, qdrtant, jina ....). +- Implementujte stránkovanie (ak bude potrebné), zlepšite výzor. -Stretnutie 17.2.2022 + +Stretnutie 17.2.2023 Úlohy: