Update pages/students/2022/jakub_schwarc/README.md

2026-06-10 09:20:21 +00:00 · 2026-06-10 08:53:26 +00:00 · 2026-06-10 08:48:06 +00:00 · 2026-06-10 08:46:39 +00:00 · 2026-06-10 08:27:31 +00:00 · 2026-06-10 08:07:49 +00:00
3 changed files with 77 additions and 2 deletions
--- a/pages/students/2022/andrii_pervashov/README.md
+++ b/pages/students/2022/andrii_pervashov/README.md
@ -16,6 +16,9 @@ Návrh na tému:

 Prepis reči pre tvorbu štruktúrovaného zdravotného záznamu

+Repo https://git.kemt.fei.tuke.sk/ap565wq/diplomova_praca
+
+
 Ciele:

 - Vytvorte systém pre prepis reči a naplnenie formulára pomocou lokálnych jazykových modelov
@ -37,7 +40,27 @@ Zásobník úloh:
 - Vyskúšajte ako funguje rozpoznávanie reči cez OPeWEBUI. Navrhnute zlepšenia.
 - Ako vieme zistiť, ktoré informácie nám chýbajú?

+Stretnutie 10.6.2026

+Stav:
+
+- prepísaný kód rozhrania do knižnice next js. 
+- použitie lokálnych modelov cez ollama, zatiaľ qwen3-4B beží na PC. Model nejde veľmi dobre.
+- Na PC beží aj lokálny Whisper - funguje oveľa horšie.
+- aplikácia je kontajnerizovaná - docker compose.
+
+Úlohy:
+
+- Oboznámte sa s postupmi pre dotrénovanie jazykového modelu - LORA, PEFT.
+- Oboznámte sa s metódami Information Extraction. Vyhľadajte si články na túto tému a napíšte, aké metódy sa používajú. Vstupom je text v prir. jazyku, výstupom je niečo ako JSON. Napíšte si poznámky. 
+- Vyhľadajte články o podobných prístupoch - ako rečovo naplniť formulár.
+- Zistite podrobnosti o procese tvorby formulára "Záznam o zhodnotení zdravotného stavu osoby". Získajte vzor. Zistite otázky ktoré sú dôležité.
+
+Zásobník úloh:
+
+- Zostavte testovací scenár a testovaciu množinu.
+- Nasadte aplikáciu na školskej infraštruktúre a využite kvalitnejšie jazykové modely a modely pre rozpoznávanie reči.
+- Implementujte mechanizmus spätnej väzby - kontrola správnosti a doplnenie chýbajúcich hodnôt.


 ## Bakalárska práca 2025
--- a/pages/students/2022/jakub_schwarc/README.md
+++ b/pages/students/2022/jakub_schwarc/README.md
@ -21,9 +21,42 @@ Ciele na semester:

 - Dotrénujte a vyhodnotte Slovak Mistral.

+Stretnutie 10.6.2026
+
+Stav:
+
+- kódy sú na servri titan
+- funguje dotrénovanie Slovak Mistral pomocou Slovak Alpaca na Titan, pomocou unsloth aj LlamaFactory. Používa sa qlora.
+- po dotrénovaní to je ručne vyskúšané. Nevie odborné výrazy. Model rozumie jednoduchým inštrukciám. Model je ukecaný.
+
+Úlohy:
+
+- Vytvorte GIT repozitár a dajte tam kódy.
+- Pre LLmamaFactory dávajte na GIT konfigurácie.
+- Rozšírte trénovaciu sadu - o zdroje v https://github.com/slovak-nlp/resources Zatiaľ najlepšie vyzerá byť CohereLabs/aya_collection_language_split
+- Model zverejnite na HuggingFace hube.
+- Napíšte si poznámky o aktuálnych metódach PEFT a SFT. Preštudujte si vedecké články z Google Scholar.
+- Vyhodnotte model pomocu lm-evaluation-harness. Pozrite si výsledky https://wandb.ai/hladek/lmeval?nw=nwuserhladek
+
+Príkaz na vyhodnotenie je 
+```
+/home/dh343ko/miniconda3/envs/transformers/bin/lm-eval --model hf --model_args pretrained=google/mt5-large --tasks arc_sk,hellaswag_sk,m_mmlu_sk,truthfulqa_sk_mc1,truthfulqa_sk_mc2,sklegal,skquad --output_path zzz --wandb_args project=lmeval_mt5-large --device cuda:0 --batch_size 8
+```
+ 
+
+Zásobník úloh:
+
+- Možno bude potrebné použiť lepší HW.  
+- Zlepšite proces vyhodnotenia. Dá sa použiť  sk bech ktorý je v príprave. 
+- Zistite, čo je to zarovnanie jazykových modelov. Pozrite si framework huggingface trl. Zistite, čo je to meóda DPO a RLHF.  Ku tomu existuje  DP práca Hyrenko.
+- Strojovo preložte vybranú množinu.
+- Vytvorte github repozitár so skriptami pre dotrénovanie jazykovéo modelu.
+
+
+
 Stretnutie 27.2.

- Obozn8mte sa problematikou podľa zadaných zdrojov.
+- Oboznámte sa problematikou podľa zadaných zdrojov.
 - Pozrite si https://allenai.org/olmo

 Úlohy:
--- a/pages/students/2022/jan_ptak/README.md
+++ b/pages/students/2022/jan_ptak/README.md
@ -30,8 +30,27 @@ Zásobník úloh:

 - Zistite, čo je to znalostný graf
 - Naučte sa čo je to GraphRAG
- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazkového modelu
+- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazykového modelu

+Stretnutie 8.6.2026
+
+Stav:
+
+- Odovzdané nejaké zdrojové kódy na https://git.kemt.fei.tuke.sk/jp170na/dp-zp-agent - načítanie z markdown, indexovanie do SQLite a FastAPI.
+- Ostatné úlohy neboli vyriešené.
+
+Úlohy:
+
+- Pokračujte v otvorených úlohách. Vypracujte písomnú správu o preštudovaných materiáloch. 
+- Sústredte sa na GraphRAG. Použite google scholar a https://graphrag.com/
+- Pozrite si kódy na https://github.com/hladek/kemthesis
+- Pozrite si systém https://github.com/hkuds/minirag
+
+Zásobník úloh:
+
+- Nové smerovanie môže byť spracovanie textov záverečných prác. Vytvorte RAG systém pre vyhľadávanie v záverečných prácach. 
+- Napojte sa na systém CRZP a prepojte ho s LLM agentom.
+- Vytvorte vyhľadávanie v dodaných textoch záverečných prác. 

 Stretnutie 20.2.2026
Author	SHA1	Message	Date
dano	53835adf23	Update pages/students/2022/jakub_schwarc/README.md	2026-06-10 09:20:21 +00:00
dano	279f5e115d	Update pages/students/2022/jakub_schwarc/README.md	2026-06-10 08:53:26 +00:00
dano	90fa1104a7	Update pages/students/2022/jakub_schwarc/README.md	2026-06-10 08:48:06 +00:00
dano	b5421c72f1	Update pages/students/2022/andrii_pervashov/README.md	2026-06-10 08:46:39 +00:00
dano	3b1bdcbae2	Update pages/students/2022/andrii_pervashov/README.md	2026-06-10 08:27:31 +00:00
dano	d171024456	Update pages/students/2022/andrii_pervashov/README.md	2026-06-10 08:07:49 +00:00
dano	08ebbde322	Update pages/students/2022/jan_ptak/README.md	2026-06-08 11:25:29 +00:00
dano	17bcaf9cb7	Update pages/students/2022/jan_ptak/README.md	2026-06-08 11:24:00 +00:00
dano	943e649fab	Update pages/students/2022/jan_ptak/README.md	2026-06-08 11:17:35 +00:00
dano	eb5e14461a	Update pages/students/2022/jan_ptak/README.md	2026-06-08 11:13:11 +00:00