forked from KEMT/zpwiki
		
	Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						b81defcc3e
					
				@ -14,6 +14,9 @@ DP sa prekladá na rok 2025
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
# Diplomová práca 2024 - 2025
 | 
					# Diplomová práca 2024 - 2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Vektorové vyhľadávanie dokumentov v prostredí Kubernetes
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Zadanie:
 | 
					Zadanie:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí.  
 | 
					1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí.  
 | 
				
			||||||
@ -28,6 +31,22 @@ Ciel:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
 | 
					Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					- Text je rozpísaný.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zlepšiť štruktúru práce
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 10.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zaindexovaná slovenská Wikipédia na servri QUADRO. Trvalo to niekoľko hodín na jednej karte - SlovakBERT. 
 | 
				
			||||||
 | 
					- Práca na texte.
 | 
				
			||||||
 | 
					- RPI už funguje (2x reštart, problém s káblom).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 21.2.2025
 | 
					Stretnutie 21.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -37,7 +56,6 @@ Stav:
 | 
				
			|||||||
- Treba reštartovať RPI Klaster.
 | 
					- Treba reštartovať RPI Klaster.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					 | 
				
			||||||
Stretnutie 17.1.2025
 | 
					Stretnutie 17.1.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
@ -72,7 +90,7 @@ Stav:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
- Skripty aj konfiguráky dávajte na GIT.
 | 
					- Skripty aj konfiguráky dávajte na GIT.
 | 
				
			||||||
- Urobte skripty pre "prípravu" klastra. 
 | 
					- Urobte skripty pre "prípravu" klastra. 
 | 
				
			||||||
- Urobte skripty pre nasadenie Mulvus na Klaster.
 | 
					- Urobte skripty pre nasadenie Milvus na Klaster.
 | 
				
			||||||
- Pokračujte v písaní práce.
 | 
					- Pokračujte v písaní práce.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -12,7 +12,25 @@ rok začiatku štúdia: 2021
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
# Diplomová práca 2026
 | 
					# Diplomová práca 2026
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Vyhondotenie jayzkových modelov
 | 
					Vyhodndotenie jazykových modelov
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vyskúšané LM (cez ollama, aj API) Python (in progress).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Pokračujte v štúdiu.
 | 
				
			||||||
 | 
					- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky. 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština).
 | 
				
			||||||
 | 
					- Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 5.2.2025
 | 
					Stretnutie 5.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -28,6 +46,8 @@ Stretnutie 5.2.2025
 | 
				
			|||||||
Zásobník úloh:
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
 | 
					- Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
 | 
				
			||||||
- Vyberte úlohu vhodú na anotáciu (spolu s vedúcim).
 | 
					- Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -11,8 +11,12 @@ rok začiatku štúdia: 2021
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
# Diplomová praca 2026
 | 
					# Diplomová praca 2026
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Ciele:
 | 
					Ciele:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
 | 
				
			||||||
 | 
					, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
 | 
				
			||||||
 | 
					- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
 | 
				
			||||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
 | 
					- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Príprava:
 | 
					Príprava:
 | 
				
			||||||
@ -27,6 +31,31 @@ Príprava:
 | 
				
			|||||||
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
 | 
					- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 10.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Preštudovať - ako zostaviť RAG systém pomocou LangChain
 | 
				
			||||||
 | 
					- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM.
 | 
				
			||||||
 | 
					- Vytvoriť RAG systém pre spracovanie tejto databázy. Pozrite si: Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov,  [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak)
 | 
				
			||||||
 | 
					- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský)
 | 
				
			||||||
 | 
					- Získajte prístup na QUADRO. V adresári  /mnt/sharedhome/hladek/corpora/slovak_law/ sú dáta. Dáta premente do JSON.
 | 
				
			||||||
 | 
					Extrahujte text, vytiahnite metainformácie. Na extrakciu textu využite vhodnú knižnicu. Napr. Apache TIKA.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Myšlienkový postup pre ZP:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					1. Zadefinujete úlohu a pojmy.
 | 
				
			||||||
 | 
					2. Vysvetlíte, ako sa táto úloha rieši vo svete.
 | 
				
			||||||
 | 
					3. Napíšete, ako ste túto plohu riešlili Vy a prečo. 
 | 
				
			||||||
 | 
					4. Vyhodnottíte Vaše riešenie. Porováte výsledky so svetom a identifikujete miesta na zlepšenie.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Dáta sa vložia do databázy a zaindexujú vhodným SBERT modelom.
 | 
				
			||||||
 | 
					- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -24,7 +24,7 @@ Stretnutie:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
 | 
					- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
 | 
				
			||||||
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
 | 
					- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
 | 
				
			||||||
- Zistitee čo je to jazykový model a urobte si poznámky. 
 | 
					- Zistite čo je to jazykový model a urobte si poznámky. 
 | 
				
			||||||
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
 | 
					- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
 | 
				
			||||||
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
 | 
					- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
 | 
				
			||||||
- Zistite, čo je to korpus textov mc4. 
 | 
					- Zistite, čo je to korpus textov mc4. 
 | 
				
			||||||
@ -35,3 +35,21 @@ Zásobník úloh:
 | 
				
			|||||||
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
 | 
					- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
 | 
				
			||||||
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
 | 
					- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Naštudovaný Python, neurónové siete čiastočne.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
 | 
				
			||||||
 | 
					- Pozite si knihu https://d2l.ai/
 | 
				
			||||||
 | 
					- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
 | 
				
			||||||
 | 
					- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
 | 
				
			||||||
 | 
					- Príklad kategórie:  Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah, 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -24,6 +24,27 @@ Príprava:
 | 
				
			|||||||
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.  
 | 
					- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.  
 | 
				
			||||||
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
 | 
					- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					# Diplomová práca 2026
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Ciele:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
 | 
				
			||||||
 | 
					, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
 | 
				
			||||||
 | 
					- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 10.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Preštudovať - ako zostaviť RAG systém pomocou LangChain
 | 
				
			||||||
 | 
					- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM.
 | 
				
			||||||
 | 
					- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský)
 | 
				
			||||||
 | 
					- Vytvoriť RAG systém pre spracovanie tejto databázy. Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov,  [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak)
 | 
				
			||||||
 | 
					- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
# Bakalárska práca 2024
 | 
					# Bakalárska práca 2024
 | 
				
			||||||
 | 
				
			|||||||
@ -18,6 +18,29 @@ Zadanie:
 | 
				
			|||||||
2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
 | 
					2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
 | 
				
			||||||
3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
 | 
					3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 27.3.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Text je v lepšom stave.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 11.3.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii.
 | 
				
			||||||
 | 
					- Práca na texte BP ???
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc
 | 
				
			||||||
 | 
					- Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu  sFew Shot a SFT (Supervised Finetuning).
 | 
				
			||||||
 | 
					- Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar.
 | 
				
			||||||
 | 
					- Čím skôr odovzdajte text BP pre získanie spätnej väzby
 | 
				
			||||||
 | 
					- Nové Kódy pre experimenty nahrajte na GIT.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Vybratá množina c4
 | 
					- Vybratá množina c4
 | 
				
			||||||
@ -26,10 +49,10 @@ Stav:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
Úlohy:
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty.
 | 
					- [ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty.
 | 
				
			||||||
- Doplnte ďalšie modely typu BERT s podporou slovenčiny.  Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert 
 | 
					- [x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert 
 | 
				
			||||||
- Vypracujte tabuľky s výsledkami experimentov.
 | 
					- [x] Vypracujte tabuľky s výsledkami experimentov.
 | 
				
			||||||
- Do práce opíšte experimenty.
 | 
					- [-] Do práce opíšte experimenty.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Zásobník úloh:
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -36,6 +36,21 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
 | 
					RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Agent funguje super.
 | 
				
			||||||
 | 
					- Kódy sú na osobnom githube
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Kódy dajte na KEMT GIT.
 | 
				
			||||||
 | 
					- Dopracujte Docker Compose.
 | 
				
			||||||
 | 
					- Zverejnite demo, napr. pomocou TUKE Cloud.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
13.2.2025
 | 
					13.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
 | 
				
			|||||||
@ -29,6 +29,42 @@ Návrh na zadanie bakalárskej práce:
 | 
				
			|||||||
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
 | 
					4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
 | 
				
			||||||
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.
 | 
					5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- spojené datasety: wikiann a conll2003.  Pomohlo to. Dosiahli sme 0.9 na SLovak BERT.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Skúste zlepšiť model.
 | 
				
			||||||
 | 
					- Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol.
 | 
				
			||||||
 | 
					- Definujte a zlepšite štruktúru práce.  Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.  
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server. 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 21.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA.
 | 
				
			||||||
 | 
					- Použitie SlovakBERT a WikiANN dataset.
 | 
				
			||||||
 | 
					- Urobené Web DEMO. 
 | 
				
			||||||
 | 
					- Text nie je pokrok.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT.
 | 
				
			||||||
 | 
					- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej.
 | 
				
			||||||
 | 
					- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta,  Výsledky dajte do tabuľky. Opíšte postup experimentov.
 | 
				
			||||||
 | 
					- Pracujte na texte, hlavne na praktickej časti.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 20.12.2024
 | 
					Stretnutie 20.12.2024
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
@ -41,8 +77,8 @@ Stav:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
- Pripravte si prezentáciu.
 | 
					- Pripravte si prezentáciu.
 | 
				
			||||||
- Textu dajte na moodle, skripty dajte na git.
 | 
					- Textu dajte na moodle, skripty dajte na git.
 | 
				
			||||||
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
 | 
					- Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články.
 | 
				
			||||||
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
 | 
					- Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Zásobník úloh:
 | 
					Zásobník úloh:
 | 
				
			||||||
@ -73,7 +109,7 @@ Zásobník úloh:
 | 
				
			|||||||
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
 | 
					- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
 | 
				
			||||||
- Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. 
 | 
					- Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. 
 | 
				
			||||||
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
 | 
					- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
 | 
				
			||||||
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. 
 | 
					- Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte. 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 20.5.20204
 | 
					Stretnutie 20.5.20204
 | 
				
			||||||
 | 
				
			|||||||
@ -36,6 +36,35 @@ Návrh na tému:
 | 
				
			|||||||
- Na adaptáciu použite "prompting" a "LORA".
 | 
					- Na adaptáciu použite "prompting" a "LORA".
 | 
				
			||||||
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
 | 
					- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.3.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Práca na stránke, frontend backend
 | 
				
			||||||
 | 
					- Práca na Telegram bot, vyhodnotenie s priateľmi.
 | 
				
			||||||
 | 
					- Few Shot Learning: 0.7 F1. Slovak T5-small model. 
 | 
				
			||||||
 | 
					- Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje.
 | 
				
			||||||
 | 
					- Pripravená aj TK Inter aplikácia.
 | 
				
			||||||
 | 
					- Pripravte webovú aplikáciu na zverejnenie pomocou Docker.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň.
 | 
				
			||||||
 | 
					- Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral.
 | 
				
			||||||
 | 
					- Updatujte kódy na GITE. 
 | 
				
			||||||
 | 
					- Do práce môžete dať screenshoty z Vašej aplikácie
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zverejnite Vašu aplikáciu  napr. pomocou TUKE Cloud.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 13.2.2025
 | 
					Stretnutie 13.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
@ -49,7 +78,7 @@ Stav:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
Úlohy:
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimnty a výsledky.
 | 
					- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky.
 | 
				
			||||||
- Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
 | 
					- Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
 | 
				
			||||||
- Skripty dajte na kemt git.
 | 
					- Skripty dajte na kemt git.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
@ -35,6 +35,44 @@ Ako na to:
 | 
				
			|||||||
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. 
 | 
					- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. 
 | 
				
			||||||
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
 | 
					- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
 | 
				
			||||||
 
 | 
					 
 | 
				
			||||||
 | 
					Stretnutie:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Urobené porovnanie vplyvu agmentovaných dát na question answering.
 | 
				
			||||||
 | 
					- Rozpísaná práca
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Pokračujte v písaní. Doplne text o definícii úlohy, question generation, podrobnosti o experimnentoch, podrobnosti o procese generovania množiny QA.
 | 
				
			||||||
 | 
					- Najnovšie skripty dajte na GIT.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Doplniť experimenty s inými modelmi (Slovak Mistral).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 7.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Vytvorený skkript pre prípravu nového generovaného korpusu. Obsahuje kontext, otázku aj odpoveď. Zatiaľ nevie vyznačiť odpoveĎ v kontexte.
 | 
				
			||||||
 | 
					- Vygenerované korpusy otázok a odpovedí pre SKWIKI a  prokuratúru.
 | 
				
			||||||
 | 
					- Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. Augmntovaná množina má zatiaľ 30k otázok.
 | 
				
			||||||
 | 
					- Vyzerá to tak, že model s augmentovanými dátami je o dosť lepší. Je to naozaj dobre?
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Overiť či generované množina nie je príliš podobná overovacej.
 | 
				
			||||||
 | 
					- Pokračujte v písaní práce , opíšte experimenty, vypracujte tabuľky.
 | 
				
			||||||
 | 
					- Pozrite sa na článok O. Megela: Fine-Tuning and Evaluation of Question Generation for Slovak Language
 | 
				
			||||||
 | 
					- Pre porovnanie vyhodnotte modely sami (slovak-t5-base), dotrénujute na SKQUAD-train. Vyhodnocujete stále na test časti. POrovnajte s viacerými augmentovanými dátami. V niekroých testoch primiešajte aj skquad train. 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Publikovať na konferencii.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 25.2.
 | 
					Stretnutie 25.2.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
 | 
				
			|||||||
@ -30,6 +30,34 @@ Nápad:
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
 | 
					- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 21.3.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Práca na obsahu BP. Stav zatiaľ nie je uspokojivý.
 | 
				
			||||||
 | 
					- Pridaný Ingress do aplikácie.
 | 
				
			||||||
 | 
					- Pridaný GMETER do monitorovania klastra.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zlepšite text práce. Postupujte od všeobecného ku konkrétnemu. Spojte súvisiace časti.  Definujte úlohu, vysvetlite základné pojmy. Predstavte Vaše riešenie. V experimentoch vyhodnotte Vaše riešenie a napíšte záver - nápady na zlepšenie.
 | 
				
			||||||
 | 
					- Použite generatívny model na zlepšenie gramaticky a štylistiky.
 | 
				
			||||||
 | 
					- Dbajte aby práca spĺňala zadanie.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 27.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stav:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Grafana a Prometheus inštalované cez K8s
 | 
				
			||||||
 | 
					- Práca na písomnej časti.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Zjednotiť zápis slova klaud
 | 
				
			||||||
 | 
					- Opraviť preklepy
 | 
				
			||||||
 | 
					- Opraviť šablónu
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stretnutie 31.1.2025
 | 
					Stretnutie 31.1.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
Stav:
 | 
					Stav:
 | 
				
			||||||
 | 
				
			|||||||
@ -23,5 +23,25 @@ Predbežné zadanie:
 | 
				
			|||||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | 
					2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | 
				
			||||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 | 
					3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
 | 
				
			||||||
 | 
					- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
 | 
				
			||||||
 | 
					- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
 | 
				
			||||||
 | 
					- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
 | 
				
			||||||
 | 
					- Vytvorte korpus medicínskych dát.
 | 
				
			||||||
 | 
					- Vytvorte korpus novinových článkov a blogov.
 | 
				
			||||||
 | 
					- Vytvorte korpus webových diskusií.
 | 
				
			||||||
 | 
					- Vytvorte korpus všeobecných dát.
 | 
				
			||||||
 | 
					- Vytvorené texty analyzujte. 
 | 
				
			||||||
 | 
					 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user