1
0
forked from KEMT/zpwiki

Compare commits

...

10 Commits

3 changed files with 77 additions and 2 deletions

View File

@ -16,6 +16,9 @@ Návrh na tému:
Prepis reči pre tvorbu štruktúrovaného zdravotného záznamu
Repo https://git.kemt.fei.tuke.sk/ap565wq/diplomova_praca
Ciele:
- Vytvorte systém pre prepis reči a naplnenie formulára pomocou lokálnych jazykových modelov
@ -37,7 +40,27 @@ Zásobník úloh:
- Vyskúšajte ako funguje rozpoznávanie reči cez OPeWEBUI. Navrhnute zlepšenia.
- Ako vieme zistiť, ktoré informácie nám chýbajú?
Stretnutie 10.6.2026
Stav:
- prepísaný kód rozhrania do knižnice next js.
- použitie lokálnych modelov cez ollama, zatiaľ qwen3-4B beží na PC. Model nejde veľmi dobre.
- Na PC beží aj lokálny Whisper - funguje oveľa horšie.
- aplikácia je kontajnerizovaná - docker compose.
Úlohy:
- Oboznámte sa s postupmi pre dotrénovanie jazykového modelu - LORA, PEFT.
- Oboznámte sa s metódami Information Extraction. Vyhľadajte si články na túto tému a napíšte, aké metódy sa používajú. Vstupom je text v prir. jazyku, výstupom je niečo ako JSON. Napíšte si poznámky.
- Vyhľadajte články o podobných prístupoch - ako rečovo naplniť formulár.
- Zistite podrobnosti o procese tvorby formulára "Záznam o zhodnotení zdravotného stavu osoby". Získajte vzor. Zistite otázky ktoré sú dôležité.
Zásobník úloh:
- Zostavte testovací scenár a testovaciu množinu.
- Nasadte aplikáciu na školskej infraštruktúre a využite kvalitnejšie jazykové modely a modely pre rozpoznávanie reči.
- Implementujte mechanizmus spätnej väzby - kontrola správnosti a doplnenie chýbajúcich hodnôt.
## Bakalárska práca 2025

View File

@ -21,9 +21,42 @@ Ciele na semester:
- Dotrénujte a vyhodnotte Slovak Mistral.
Stretnutie 10.6.2026
Stav:
- kódy sú na servri titan
- funguje dotrénovanie Slovak Mistral pomocou Slovak Alpaca na Titan, pomocou unsloth aj LlamaFactory. Používa sa qlora.
- po dotrénovaní to je ručne vyskúšané. Nevie odborné výrazy. Model rozumie jednoduchým inštrukciám. Model je ukecaný.
Úlohy:
- Vytvorte GIT repozitár a dajte tam kódy.
- Pre LLmamaFactory dávajte na GIT konfigurácie.
- Rozšírte trénovaciu sadu - o zdroje v https://github.com/slovak-nlp/resources Zatiaľ najlepšie vyzerá byť CohereLabs/aya_collection_language_split
- Model zverejnite na HuggingFace hube.
- Napíšte si poznámky o aktuálnych metódach PEFT a SFT. Preštudujte si vedecké články z Google Scholar.
- Vyhodnotte model pomocu lm-evaluation-harness. Pozrite si výsledky https://wandb.ai/hladek/lmeval?nw=nwuserhladek
Príkaz na vyhodnotenie je
```
/home/dh343ko/miniconda3/envs/transformers/bin/lm-eval --model hf --model_args pretrained=google/mt5-large --tasks arc_sk,hellaswag_sk,m_mmlu_sk,truthfulqa_sk_mc1,truthfulqa_sk_mc2,sklegal,skquad --output_path zzz --wandb_args project=lmeval_mt5-large --device cuda:0 --batch_size 8
```
Zásobník úloh:
- Možno bude potrebné použiť lepší HW.
- Zlepšite proces vyhodnotenia. Dá sa použiť sk bech ktorý je v príprave.
- Zistite, čo je to zarovnanie jazykových modelov. Pozrite si framework huggingface trl. Zistite, čo je to meóda DPO a RLHF. Ku tomu existuje DP práca Hyrenko.
- Strojovo preložte vybranú množinu.
- Vytvorte github repozitár so skriptami pre dotrénovanie jazykovéo modelu.
Stretnutie 27.2.
- Obozn8mte sa problematikou podľa zadaných zdrojov.
- Oboznámte sa problematikou podľa zadaných zdrojov.
- Pozrite si https://allenai.org/olmo
Úlohy:

View File

@ -30,8 +30,27 @@ Zásobník úloh:
- Zistite, čo je to znalostný graf
- Naučte sa čo je to GraphRAG
- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazkového modelu
- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazykového modelu
Stretnutie 8.6.2026
Stav:
- Odovzdané nejaké zdrojové kódy na https://git.kemt.fei.tuke.sk/jp170na/dp-zp-agent - načítanie z markdown, indexovanie do SQLite a FastAPI.
- Ostatné úlohy neboli vyriešené.
Úlohy:
- Pokračujte v otvorených úlohách. Vypracujte písomnú správu o preštudovaných materiáloch.
- Sústredte sa na GraphRAG. Použite google scholar a https://graphrag.com/
- Pozrite si kódy na https://github.com/hladek/kemthesis
- Pozrite si systém https://github.com/hkuds/minirag
Zásobník úloh:
- Nové smerovanie môže byť spracovanie textov záverečných prác. Vytvorte RAG systém pre vyhľadávanie v záverečných prácach.
- Napojte sa na systém CRZP a prepojte ho s LLM agentom.
- Vytvorte vyhľadávanie v dodaných textoch záverečných prác.
Stretnutie 20.2.2026