From def0f4940a50921a8c3475fc7b64ed7fef2a0f0d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Dec 2025 08:54:59 +0000 Subject: [PATCH] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 61fa29a6..0c16cc37 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -20,6 +20,15 @@ Ciele: - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. +Stretnutie 5.12.2025 + +- Zlepšenie parsovania a promptingu. +- Funguje LangGraph pipeline - "router" vyberie index (API, FAISS alebo internet), podľa toho sa získajú dokumenty (40 nabližších). Tie sa filtrujú pomocou LM (na cca 5). Potom sa generuje sa odpoveď. Niekedy sa odfiltruje relevantný dokument (chunk) a model potom halucinuje. +- Prerábal som chunkovanie html pre parsovanie dat. Chunk mal 512 tokenov. Prerábané kvoli vysvetlovaniu z akeho zakona, cisla, bodu… zakon je. Následne bolo potrebne preindexovanie. Model me5-large. Veľkosť indexu 26Gi. Avšak len html, prilohy neindexovane. +- Nastavovanie promptu pre sumarizaciu čo použit(API, web search, faiss) +- Úprava tresholdu a poctu dokumentov pre faiss retriever aby naslo spravne dokumenty a spravne odpovedl na otazku. Kazda odpoved ina a dobra v niecom, zla v niecom preto zistujem ako to upravit spravne. Vytvorenie pomocnych funkcii nieco ako router na filtrovanie zakonov, ktore sa vobec dostanu dalej na tvorbu odpovede +- mozno bude treba iny model takze rechunk, reindex, rerank aby tam boli aj pdfka(to je dost podstatne). Povedat ze grafika 1 je obmedzena. skusit sa opytat na ine graficke karty lepsie. 1 - 30 hodin. 2,3,4 - 5 hodin cca + Stretnutie 27.11.2025 Stav: