forked from KEMT/zpwiki
Compare commits
10 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
| 53835adf23 | |||
| 279f5e115d | |||
| 90fa1104a7 | |||
| b5421c72f1 | |||
| 3b1bdcbae2 | |||
| d171024456 | |||
| 08ebbde322 | |||
| 17bcaf9cb7 | |||
| 943e649fab | |||
| eb5e14461a |
@ -16,6 +16,9 @@ Návrh na tému:
|
||||
|
||||
Prepis reči pre tvorbu štruktúrovaného zdravotného záznamu
|
||||
|
||||
Repo https://git.kemt.fei.tuke.sk/ap565wq/diplomova_praca
|
||||
|
||||
|
||||
Ciele:
|
||||
|
||||
- Vytvorte systém pre prepis reči a naplnenie formulára pomocou lokálnych jazykových modelov
|
||||
@ -37,7 +40,27 @@ Zásobník úloh:
|
||||
- Vyskúšajte ako funguje rozpoznávanie reči cez OPeWEBUI. Navrhnute zlepšenia.
|
||||
- Ako vieme zistiť, ktoré informácie nám chýbajú?
|
||||
|
||||
Stretnutie 10.6.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- prepísaný kód rozhrania do knižnice next js.
|
||||
- použitie lokálnych modelov cez ollama, zatiaľ qwen3-4B beží na PC. Model nejde veľmi dobre.
|
||||
- Na PC beží aj lokálny Whisper - funguje oveľa horšie.
|
||||
- aplikácia je kontajnerizovaná - docker compose.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s postupmi pre dotrénovanie jazykového modelu - LORA, PEFT.
|
||||
- Oboznámte sa s metódami Information Extraction. Vyhľadajte si články na túto tému a napíšte, aké metódy sa používajú. Vstupom je text v prir. jazyku, výstupom je niečo ako JSON. Napíšte si poznámky.
|
||||
- Vyhľadajte články o podobných prístupoch - ako rečovo naplniť formulár.
|
||||
- Zistite podrobnosti o procese tvorby formulára "Záznam o zhodnotení zdravotného stavu osoby". Získajte vzor. Zistite otázky ktoré sú dôležité.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zostavte testovací scenár a testovaciu množinu.
|
||||
- Nasadte aplikáciu na školskej infraštruktúre a využite kvalitnejšie jazykové modely a modely pre rozpoznávanie reči.
|
||||
- Implementujte mechanizmus spätnej väzby - kontrola správnosti a doplnenie chýbajúcich hodnôt.
|
||||
|
||||
|
||||
## Bakalárska práca 2025
|
||||
|
||||
@ -21,9 +21,42 @@ Ciele na semester:
|
||||
|
||||
- Dotrénujte a vyhodnotte Slovak Mistral.
|
||||
|
||||
Stretnutie 10.6.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- kódy sú na servri titan
|
||||
- funguje dotrénovanie Slovak Mistral pomocou Slovak Alpaca na Titan, pomocou unsloth aj LlamaFactory. Používa sa qlora.
|
||||
- po dotrénovaní to je ručne vyskúšané. Nevie odborné výrazy. Model rozumie jednoduchým inštrukciám. Model je ukecaný.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vytvorte GIT repozitár a dajte tam kódy.
|
||||
- Pre LLmamaFactory dávajte na GIT konfigurácie.
|
||||
- Rozšírte trénovaciu sadu - o zdroje v https://github.com/slovak-nlp/resources Zatiaľ najlepšie vyzerá byť CohereLabs/aya_collection_language_split
|
||||
- Model zverejnite na HuggingFace hube.
|
||||
- Napíšte si poznámky o aktuálnych metódach PEFT a SFT. Preštudujte si vedecké články z Google Scholar.
|
||||
- Vyhodnotte model pomocu lm-evaluation-harness. Pozrite si výsledky https://wandb.ai/hladek/lmeval?nw=nwuserhladek
|
||||
|
||||
Príkaz na vyhodnotenie je
|
||||
```
|
||||
/home/dh343ko/miniconda3/envs/transformers/bin/lm-eval --model hf --model_args pretrained=google/mt5-large --tasks arc_sk,hellaswag_sk,m_mmlu_sk,truthfulqa_sk_mc1,truthfulqa_sk_mc2,sklegal,skquad --output_path zzz --wandb_args project=lmeval_mt5-large --device cuda:0 --batch_size 8
|
||||
```
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Možno bude potrebné použiť lepší HW.
|
||||
- Zlepšite proces vyhodnotenia. Dá sa použiť sk bech ktorý je v príprave.
|
||||
- Zistite, čo je to zarovnanie jazykových modelov. Pozrite si framework huggingface trl. Zistite, čo je to meóda DPO a RLHF. Ku tomu existuje DP práca Hyrenko.
|
||||
- Strojovo preložte vybranú množinu.
|
||||
- Vytvorte github repozitár so skriptami pre dotrénovanie jazykovéo modelu.
|
||||
|
||||
|
||||
|
||||
Stretnutie 27.2.
|
||||
|
||||
- Obozn8mte sa problematikou podľa zadaných zdrojov.
|
||||
- Oboznámte sa problematikou podľa zadaných zdrojov.
|
||||
- Pozrite si https://allenai.org/olmo
|
||||
|
||||
Úlohy:
|
||||
|
||||
@ -30,8 +30,27 @@ Zásobník úloh:
|
||||
|
||||
- Zistite, čo je to znalostný graf
|
||||
- Naučte sa čo je to GraphRAG
|
||||
- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazkového modelu
|
||||
- Využite znalostný graf pre zlepšenie práce alebo vysvetliteľnosti jazykového modelu
|
||||
|
||||
Stretnutie 8.6.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- Odovzdané nejaké zdrojové kódy na https://git.kemt.fei.tuke.sk/jp170na/dp-zp-agent - načítanie z markdown, indexovanie do SQLite a FastAPI.
|
||||
- Ostatné úlohy neboli vyriešené.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v otvorených úlohách. Vypracujte písomnú správu o preštudovaných materiáloch.
|
||||
- Sústredte sa na GraphRAG. Použite google scholar a https://graphrag.com/
|
||||
- Pozrite si kódy na https://github.com/hladek/kemthesis
|
||||
- Pozrite si systém https://github.com/hkuds/minirag
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Nové smerovanie môže byť spracovanie textov záverečných prác. Vytvorte RAG systém pre vyhľadávanie v záverečných prácach.
|
||||
- Napojte sa na systém CRZP a prepojte ho s LLM agentom.
|
||||
- Vytvorte vyhľadávanie v dodaných textoch záverečných prác.
|
||||
|
||||
Stretnutie 20.2.2026
|
||||
|
||||
|
||||
Loading…
Reference in New Issue
Block a user