forked from KEMT/zpwiki
		
	Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						b81defcc3e
					
				| @ -14,6 +14,9 @@ DP sa prekladá na rok 2025 | |||||||
| 
 | 
 | ||||||
| # Diplomová práca 2024 - 2025 | # Diplomová práca 2024 - 2025 | ||||||
| 
 | 
 | ||||||
|  | 
 | ||||||
|  | Vektorové vyhľadávanie dokumentov v prostredí Kubernetes | ||||||
|  | 
 | ||||||
| Zadanie: | Zadanie: | ||||||
| 
 | 
 | ||||||
| 1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí.   | 1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí.   | ||||||
| @ -28,6 +31,22 @@ Ciel: | |||||||
| 
 | 
 | ||||||
| Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko | Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko | ||||||
| 
 | 
 | ||||||
|  | Stretnutie: | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | - Text je rozpísaný. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Zlepšiť štruktúru práce | ||||||
|  | 
 | ||||||
|  | Stretnutie 10.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Zaindexovaná slovenská Wikipédia na servri QUADRO. Trvalo to niekoľko hodín na jednej karte - SlovakBERT.  | ||||||
|  | - Práca na texte. | ||||||
|  | - RPI už funguje (2x reštart, problém s káblom). | ||||||
| 
 | 
 | ||||||
| Stretnutie 21.2.2025 | Stretnutie 21.2.2025 | ||||||
| 
 | 
 | ||||||
| @ -37,7 +56,6 @@ Stav: | |||||||
| - Treba reštartovať RPI Klaster. | - Treba reštartovať RPI Klaster. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| 
 |  | ||||||
| Stretnutie 17.1.2025 | Stretnutie 17.1.2025 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
| @ -72,7 +90,7 @@ Stav: | |||||||
| 
 | 
 | ||||||
| - Skripty aj konfiguráky dávajte na GIT. | - Skripty aj konfiguráky dávajte na GIT. | ||||||
| - Urobte skripty pre "prípravu" klastra.  | - Urobte skripty pre "prípravu" klastra.  | ||||||
| - Urobte skripty pre nasadenie Mulvus na Klaster. | - Urobte skripty pre nasadenie Milvus na Klaster. | ||||||
| - Pokračujte v písaní práce. | - Pokračujte v písaní práce. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -12,7 +12,25 @@ rok začiatku štúdia: 2021 | |||||||
| 
 | 
 | ||||||
| # Diplomová práca 2026 | # Diplomová práca 2026 | ||||||
| 
 | 
 | ||||||
| Vyhondotenie jayzkových modelov | Vyhodndotenie jazykových modelov | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Stretnutie 28.2.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Vyskúšané LM (cez ollama, aj API) Python (in progress). | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Pokračujte v štúdiu. | ||||||
|  | - Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky.  | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština). | ||||||
|  | - Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct). | ||||||
| 
 | 
 | ||||||
| Stretnutie 5.2.2025 | Stretnutie 5.2.2025 | ||||||
| 
 | 
 | ||||||
| @ -28,6 +46,8 @@ Stretnutie 5.2.2025 | |||||||
| Zásobník úloh: | Zásobník úloh: | ||||||
| 
 | 
 | ||||||
| - Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu. | - Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu. | ||||||
| - Vyberte úlohu vhodú na anotáciu (spolu s vedúcim). | - Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim). | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -11,8 +11,12 @@ rok začiatku štúdia: 2021 | |||||||
| 
 | 
 | ||||||
| # Diplomová praca 2026 | # Diplomová praca 2026 | ||||||
| 
 | 
 | ||||||
|  | 
 | ||||||
| Ciele: | Ciele: | ||||||
| 
 | 
 | ||||||
|  | - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac | ||||||
|  | , odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. | ||||||
|  | - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. | ||||||
| - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. | - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. | ||||||
| 
 | 
 | ||||||
| Príprava: | Príprava: | ||||||
| @ -27,6 +31,31 @@ Príprava: | |||||||
| - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 10.3.2025 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Preštudovať - ako zostaviť RAG systém pomocou LangChain | ||||||
|  | - Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM. | ||||||
|  | - Vytvoriť RAG systém pre spracovanie tejto databázy. Pozrite si: Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov,  [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak) | ||||||
|  | - Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský) | ||||||
|  | - Získajte prístup na QUADRO. V adresári  /mnt/sharedhome/hladek/corpora/slovak_law/ sú dáta. Dáta premente do JSON. | ||||||
|  | Extrahujte text, vytiahnite metainformácie. Na extrakciu textu využite vhodnú knižnicu. Napr. Apache TIKA. | ||||||
|  | 
 | ||||||
|  | Myšlienkový postup pre ZP: | ||||||
|  | 
 | ||||||
|  | 1. Zadefinujete úlohu a pojmy. | ||||||
|  | 2. Vysvetlíte, ako sa táto úloha rieši vo svete. | ||||||
|  | 3. Napíšete, ako ste túto plohu riešlili Vy a prečo.  | ||||||
|  | 4. Vyhodnottíte Vaše riešenie. Porováte výsledky so svetom a identifikujete miesta na zlepšenie. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Dáta sa vložia do databázy a zaindexujú vhodným SBERT modelom. | ||||||
|  | - Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský) | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -23,8 +23,8 @@ Stretnutie: | |||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
| - Naučte sa Python. Nainštalujte si prostredie Anaconda.  | - Naučte sa Python. Nainštalujte si prostredie Anaconda.  | ||||||
| - Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. | - Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. | ||||||
| - Zistitee čo je to jazykový model a urobte si poznámky.  | - Zistite čo je to jazykový model a urobte si poznámky.  | ||||||
| - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. | - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. | ||||||
| - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. | - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. | ||||||
| - Zistite, čo je to korpus textov mc4.  | - Zistite, čo je to korpus textov mc4.  | ||||||
| @ -35,3 +35,21 @@ Zásobník úloh: | |||||||
| - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. | - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. | ||||||
| - Natrénujte neurónovú sieť pre rozlišovanie druhov textov. | - Natrénujte neurónovú sieť pre rozlišovanie druhov textov. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Naštudovaný Python, neurónové siete čiastočne. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Pozrite si dataset https://huggingface.co/datasets/allenai/c4 | ||||||
|  | - Pozite si knihu https://d2l.ai/ | ||||||
|  | - Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály. | ||||||
|  | - Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady. | ||||||
|  | - Príklad kategórie:  Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,  | ||||||
|  | 
 | ||||||
|  | |||||||
| @ -24,6 +24,27 @@ Príprava: | |||||||
| - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.   | - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.   | ||||||
| - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | ||||||
| 
 | 
 | ||||||
|  | # Diplomová práca 2026 | ||||||
|  | 
 | ||||||
|  | Ciele: | ||||||
|  | 
 | ||||||
|  | - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac | ||||||
|  | , odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. | ||||||
|  | - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. | ||||||
|  | 
 | ||||||
|  | Stretnutie 10.3.2025 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Preštudovať - ako zostaviť RAG systém pomocou LangChain | ||||||
|  | - Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM. | ||||||
|  | - Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský) | ||||||
|  | - Vytvoriť RAG systém pre spracovanie tejto databázy. Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov,  [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak) | ||||||
|  | - Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský) | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| # Bakalárska práca 2024 | # Bakalárska práca 2024 | ||||||
|  | |||||||
| @ -18,6 +18,29 @@ Zadanie: | |||||||
| 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. | 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. | ||||||
| 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. | 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 27.3. | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Text je v lepšom stave. | ||||||
|  | 
 | ||||||
|  | Stretnutie 11.3. | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii. | ||||||
|  | - Práca na texte BP ??? | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc | ||||||
|  | - Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu  sFew Shot a SFT (Supervised Finetuning). | ||||||
|  | - Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar. | ||||||
|  | - Čím skôr odovzdajte text BP pre získanie spätnej väzby | ||||||
|  | - Nové Kódy pre experimenty nahrajte na GIT. | ||||||
|  | 
 | ||||||
|  | Stretnutie: | ||||||
|  | 
 | ||||||
| Stav: | Stav: | ||||||
| 
 | 
 | ||||||
| - Vybratá množina c4 | - Vybratá množina c4 | ||||||
| @ -26,10 +49,10 @@ Stav: | |||||||
| 
 | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
| - Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty. | - [ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty. | ||||||
| - Doplnte ďalšie modely typu BERT s podporou slovenčiny.  Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert  | - [x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert  | ||||||
| - Vypracujte tabuľky s výsledkami experimentov. | - [x] Vypracujte tabuľky s výsledkami experimentov. | ||||||
| - Do práce opíšte experimenty. | - [-] Do práce opíšte experimenty. | ||||||
| 
 | 
 | ||||||
| Zásobník úloh: | Zásobník úloh: | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -36,6 +36,21 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí | |||||||
| 
 | 
 | ||||||
| RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Agent funguje super. | ||||||
|  | - Kódy sú na osobnom githube | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Kódy dajte na KEMT GIT. | ||||||
|  | - Dopracujte Docker Compose. | ||||||
|  | - Zverejnite demo, napr. pomocou TUKE Cloud. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| 13.2.2025 | 13.2.2025 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
|  | |||||||
| @ -29,6 +29,42 @@ Návrh na zadanie bakalárskej práce: | |||||||
| 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. | 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. | ||||||
| 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít. | 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - spojené datasety: wikiann a conll2003.  Pomohlo to. Dosiahli sme 0.9 na SLovak BERT. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Skúste zlepšiť model. | ||||||
|  | - Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol. | ||||||
|  | - Definujte a zlepšite štruktúru práce.  Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.   | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server.  | ||||||
|  | 
 | ||||||
|  | Stretnutie 21.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA. | ||||||
|  | - Použitie SlovakBERT a WikiANN dataset. | ||||||
|  | - Urobené Web DEMO.  | ||||||
|  | - Text nie je pokrok. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT. | ||||||
|  | - Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej. | ||||||
|  | - Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta,  Výsledky dajte do tabuľky. Opíšte postup experimentov. | ||||||
|  | - Pracujte na texte, hlavne na praktickej časti. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B. | ||||||
|  | 
 | ||||||
| Stretnutie 20.12.2024 | Stretnutie 20.12.2024 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
| @ -41,8 +77,8 @@ Stav: | |||||||
| 
 | 
 | ||||||
| - Pripravte si prezentáciu. | - Pripravte si prezentáciu. | ||||||
| - Textu dajte na moodle, skripty dajte na git. | - Textu dajte na moodle, skripty dajte na git. | ||||||
| - Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. | - Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články. | ||||||
| - Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. | - Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| Zásobník úloh: | Zásobník úloh: | ||||||
| @ -73,7 +109,7 @@ Zásobník úloh: | |||||||
| - Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. | - Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. | ||||||
| - Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.  | - Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.  | ||||||
| - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. | - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. | ||||||
| - Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.  | - Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte.  | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| Stretnutie 20.5.20204 | Stretnutie 20.5.20204 | ||||||
|  | |||||||
| @ -36,6 +36,35 @@ Návrh na tému: | |||||||
| - Na adaptáciu použite "prompting" a "LORA". | - Na adaptáciu použite "prompting" a "LORA". | ||||||
| - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). | - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.3. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Práca na stránke, frontend backend | ||||||
|  | - Práca na Telegram bot, vyhodnotenie s priateľmi. | ||||||
|  | - Few Shot Learning: 0.7 F1. Slovak T5-small model.  | ||||||
|  | - Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje. | ||||||
|  | - Pripravená aj TK Inter aplikácia. | ||||||
|  | - Pripravte webovú aplikáciu na zverejnenie pomocou Docker. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň. | ||||||
|  | - Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral. | ||||||
|  | - Updatujte kódy na GITE.  | ||||||
|  | - Do práce môžete dať screenshoty z Vašej aplikácie | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Zverejnite Vašu aplikáciu  napr. pomocou TUKE Cloud. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| Stretnutie 13.2.2025 | Stretnutie 13.2.2025 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
| @ -49,7 +78,7 @@ Stav: | |||||||
| 
 | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
| - Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimnty a výsledky. | - Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky. | ||||||
| - Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness. | - Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness. | ||||||
| - Skripty dajte na kemt git. | - Skripty dajte na kemt git. | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -35,6 +35,44 @@ Ako na to: | |||||||
| - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.  | - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.  | ||||||
| - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | ||||||
|   |   | ||||||
|  | Stretnutie: | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Urobené porovnanie vplyvu agmentovaných dát na question answering. | ||||||
|  | - Rozpísaná práca | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Pokračujte v písaní. Doplne text o definícii úlohy, question generation, podrobnosti o experimnentoch, podrobnosti o procese generovania množiny QA. | ||||||
|  | - Najnovšie skripty dajte na GIT. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Doplniť experimenty s inými modelmi (Slovak Mistral). | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Stretnutie 7.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Vytvorený skkript pre prípravu nového generovaného korpusu. Obsahuje kontext, otázku aj odpoveď. Zatiaľ nevie vyznačiť odpoveĎ v kontexte. | ||||||
|  | - Vygenerované korpusy otázok a odpovedí pre SKWIKI a  prokuratúru. | ||||||
|  | - Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. Augmntovaná množina má zatiaľ 30k otázok. | ||||||
|  | - Vyzerá to tak, že model s augmentovanými dátami je o dosť lepší. Je to naozaj dobre? | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Overiť či generované množina nie je príliš podobná overovacej. | ||||||
|  | - Pokračujte v písaní práce , opíšte experimenty, vypracujte tabuľky. | ||||||
|  | - Pozrite sa na článok O. Megela: Fine-Tuning and Evaluation of Question Generation for Slovak Language | ||||||
|  | - Pre porovnanie vyhodnotte modely sami (slovak-t5-base), dotrénujute na SKQUAD-train. Vyhodnocujete stále na test časti. POrovnajte s viacerými augmentovanými dátami. V niekroých testoch primiešajte aj skquad train.  | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Publikovať na konferencii. | ||||||
|  | 
 | ||||||
| Stretnutie 25.2. | Stretnutie 25.2. | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
|  | |||||||
| @ -30,6 +30,34 @@ Nápad: | |||||||
| 
 | 
 | ||||||
| - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. | - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 21.3.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Práca na obsahu BP. Stav zatiaľ nie je uspokojivý. | ||||||
|  | - Pridaný Ingress do aplikácie. | ||||||
|  | - Pridaný GMETER do monitorovania klastra. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Zlepšite text práce. Postupujte od všeobecného ku konkrétnemu. Spojte súvisiace časti.  Definujte úlohu, vysvetlite základné pojmy. Predstavte Vaše riešenie. V experimentoch vyhodnotte Vaše riešenie a napíšte záver - nápady na zlepšenie. | ||||||
|  | - Použite generatívny model na zlepšenie gramaticky a štylistiky. | ||||||
|  | - Dbajte aby práca spĺňala zadanie. | ||||||
|  | 
 | ||||||
|  | Stretnutie 27.2.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Grafana a Prometheus inštalované cez K8s | ||||||
|  | - Práca na písomnej časti. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Zjednotiť zápis slova klaud | ||||||
|  | - Opraviť preklepy | ||||||
|  | - Opraviť šablónu | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| Stretnutie 31.1.2025 | Stretnutie 31.1.2025 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
|  | |||||||
| @ -23,5 +23,25 @@ Predbežné zadanie: | |||||||
| 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | ||||||
| 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.2.2025 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. | ||||||
|  | - Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. | ||||||
|  | - Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. | ||||||
|  | - Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. | ||||||
|  | - Vytvorte korpus medicínskych dát. | ||||||
|  | - Vytvorte korpus novinových článkov a blogov. | ||||||
|  | - Vytvorte korpus webových diskusií. | ||||||
|  | - Vytvorte korpus všeobecných dát. | ||||||
|  | - Vytvorené texty analyzujte.  | ||||||
|  |   | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user