Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Daniel Hládek 2025-04-03 13:19:45 +02:00
commit b81defcc3e
12 changed files with 311 additions and 16 deletions

View File

@ -14,6 +14,9 @@ DP sa prekladá na rok 2025
# Diplomová práca 2024 - 2025 # Diplomová práca 2024 - 2025
Vektorové vyhľadávanie dokumentov v prostredí Kubernetes
Zadanie: Zadanie:
1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí. 1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí.
@ -28,6 +31,22 @@ Ciel:
Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
Stretnutie:
Stav:
- Text je rozpísaný.
Úlohy:
- Zlepšiť štruktúru práce
Stretnutie 10.3.2025
Stav:
- Zaindexovaná slovenská Wikipédia na servri QUADRO. Trvalo to niekoľko hodín na jednej karte - SlovakBERT.
- Práca na texte.
- RPI už funguje (2x reštart, problém s káblom).
Stretnutie 21.2.2025 Stretnutie 21.2.2025
@ -37,7 +56,6 @@ Stav:
- Treba reštartovať RPI Klaster. - Treba reštartovať RPI Klaster.
Stretnutie 17.1.2025 Stretnutie 17.1.2025
Stav: Stav:
@ -72,7 +90,7 @@ Stav:
- Skripty aj konfiguráky dávajte na GIT. - Skripty aj konfiguráky dávajte na GIT.
- Urobte skripty pre "prípravu" klastra. - Urobte skripty pre "prípravu" klastra.
- Urobte skripty pre nasadenie Mulvus na Klaster. - Urobte skripty pre nasadenie Milvus na Klaster.
- Pokračujte v písaní práce. - Pokračujte v písaní práce.

View File

@ -12,7 +12,25 @@ rok začiatku štúdia: 2021
# Diplomová práca 2026 # Diplomová práca 2026
Vyhondotenie jayzkových modelov Vyhodndotenie jazykových modelov
Stretnutie 28.2.2025
Stav:
- Vyskúšané LM (cez ollama, aj API) Python (in progress).
Úlohy:
- Pokračujte v štúdiu.
- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky.
Zásobník úloh:
- Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština).
- Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct).
Stretnutie 5.2.2025 Stretnutie 5.2.2025
@ -28,6 +46,8 @@ Stretnutie 5.2.2025
Zásobník úloh: Zásobník úloh:
- Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu. - Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu.
- Vyberte úlohu vhodú na anotáciu (spolu s vedúcim). - Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim).

View File

@ -11,8 +11,12 @@ rok začiatku štúdia: 2021
# Diplomová praca 2026 # Diplomová praca 2026
Ciele: Ciele:
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
Príprava: Príprava:
@ -27,6 +31,31 @@ Príprava:
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
Stretnutie 10.3.2025
Úlohy:
- Preštudovať - ako zostaviť RAG systém pomocou LangChain
- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM.
- Vytvoriť RAG systém pre spracovanie tejto databázy. Pozrite si: Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov, [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak)
- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský)
- Získajte prístup na QUADRO. V adresári /mnt/sharedhome/hladek/corpora/slovak_law/ sú dáta. Dáta premente do JSON.
Extrahujte text, vytiahnite metainformácie. Na extrakciu textu využite vhodnú knižnicu. Napr. Apache TIKA.
Myšlienkový postup pre ZP:
1. Zadefinujete úlohu a pojmy.
2. Vysvetlíte, ako sa táto úloha rieši vo svete.
3. Napíšete, ako ste túto plohu riešlili Vy a prečo.
4. Vyhodnottíte Vaše riešenie. Porováte výsledky so svetom a identifikujete miesta na zlepšenie.
Zásobník úloh:
- Dáta sa vložia do databázy a zaindexujú vhodným SBERT modelom.
- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský)

View File

@ -23,8 +23,8 @@ Stretnutie:
Úlohy: Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda. - Naučte sa Python. Nainštalujte si prostredie Anaconda.
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. - Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistitee čo je to jazykový model a urobte si poznámky. - Zistite čo je to jazykový model a urobte si poznámky.
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4. - Zistite, čo je to korpus textov mc4.
@ -35,3 +35,21 @@ Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov. - Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
Stretnutie 28.3.2025
Stav:
- Naštudovaný Python, neurónové siete čiastočne.
Úlohy:
- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
- Pozite si knihu https://d2l.ai/
- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.
Zásobník úloh:
- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
- Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,

View File

@ -24,6 +24,27 @@ Príprava:
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
# Diplomová práca 2026
Ciele:
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
Stretnutie 10.3.2025
Úlohy:
- Preštudovať - ako zostaviť RAG systém pomocou LangChain
- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM.
- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský)
- Vytvoriť RAG systém pre spracovanie tejto databázy. Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov, [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak)
- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský)
# Bakalárska práca 2024 # Bakalárska práca 2024

View File

@ -18,18 +18,41 @@ Zadanie:
2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
Stretnutie 27.3.
Stav:
- Text je v lepšom stave.
Stretnutie 11.3.
Stav:
- Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii.
- Práca na texte BP ???
Úlohy:
- Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc
- Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu sFew Shot a SFT (Supervised Finetuning).
- Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar.
- Čím skôr odovzdajte text BP pre získanie spätnej väzby
- Nové Kódy pre experimenty nahrajte na GIT.
Stretnutie:
Stav: Stav:
- Vybratá množina c4 - Vybratá množina c4
- Vyhodnotenie SlovakBERT, mBERT a Roberta Base pre EN. - Vyhodnotenie SlovakBERT, mBERT a Roberta Base pre EN.
- Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE. - Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE.
Úlohy: Úlohy:
- Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty. - [ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty.
- Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert - [x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert
- Vypracujte tabuľky s výsledkami experimentov. - [x] Vypracujte tabuľky s výsledkami experimentov.
- Do práce opíšte experimenty. - [-] Do práce opíšte experimenty.
Zásobník úloh: Zásobník úloh:

View File

@ -36,6 +36,21 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
Stretnutie 28.3.2025
Stav:
- Agent funguje super.
- Kódy sú na osobnom githube
Úlohy:
- Kódy dajte na KEMT GIT.
- Dopracujte Docker Compose.
- Zverejnite demo, napr. pomocou TUKE Cloud.
13.2.2025 13.2.2025
Stav: Stav:

View File

@ -29,6 +29,42 @@ Návrh na zadanie bakalárskej práce:
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít. 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.
Stretnutie 28.3.2025
Stav:
- spojené datasety: wikiann a conll2003. Pomohlo to. Dosiahli sme 0.9 na SLovak BERT.
Úlohy:
- Skúste zlepšiť model.
- Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol.
- Definujte a zlepšite štruktúru práce. Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.
Zásobník úloh:
- Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server.
Stretnutie 21.3.2025
Stav:
- Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA.
- Použitie SlovakBERT a WikiANN dataset.
- Urobené Web DEMO.
- Text nie je pokrok.
Úlohy:
- Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT.
- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej.
- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimentov.
- Pracujte na texte, hlavne na praktickej časti.
Zásobník úloh:
- Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B.
Stretnutie 20.12.2024 Stretnutie 20.12.2024
Stav: Stav:
@ -41,8 +77,8 @@ Stav:
- Pripravte si prezentáciu. - Pripravte si prezentáciu.
- Textu dajte na moodle, skripty dajte na git. - Textu dajte na moodle, skripty dajte na git.
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. - Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články.
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. - Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
Zásobník úloh: Zásobník úloh:
@ -70,10 +106,10 @@ Stav:
Zásobník úloh: Zásobník úloh:
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. - Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. - Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. - Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte.
Stretnutie 20.5.20204 Stretnutie 20.5.20204

View File

@ -36,6 +36,35 @@ Návrh na tému:
- Na adaptáciu použite "prompting" a "LORA". - Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
Stretnutie 28.3.
Stav:
- Práca na stránke, frontend backend
- Práca na Telegram bot, vyhodnotenie s priateľmi.
- Few Shot Learning: 0.7 F1. Slovak T5-small model.
- Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje.
- Pripravená aj TK Inter aplikácia.
- Pripravte webovú aplikáciu na zverejnenie pomocou Docker.
Úlohy:
- Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň.
- Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral.
- Updatujte kódy na GITE.
- Do práce môžete dať screenshoty z Vašej aplikácie
Zásobník úloh:
- Zverejnite Vašu aplikáciu napr. pomocou TUKE Cloud.
Stretnutie 13.2.2025 Stretnutie 13.2.2025
Stav: Stav:
@ -49,7 +78,7 @@ Stav:
Úlohy: Úlohy:
- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimnty a výsledky. - Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky.
- Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness. - Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
- Skripty dajte na kemt git. - Skripty dajte na kemt git.

View File

@ -35,6 +35,44 @@ Ako na to:
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
Stretnutie:
Stav:
- Urobené porovnanie vplyvu agmentovaných dát na question answering.
- Rozpísaná práca
Úlohy:
- Pokračujte v písaní. Doplne text o definícii úlohy, question generation, podrobnosti o experimnentoch, podrobnosti o procese generovania množiny QA.
- Najnovšie skripty dajte na GIT.
Zásobník úloh:
- Doplniť experimenty s inými modelmi (Slovak Mistral).
Stretnutie 7.3.2025
Stav:
- Vytvorený skkript pre prípravu nového generovaného korpusu. Obsahuje kontext, otázku aj odpoveď. Zatiaľ nevie vyznačiť odpoveĎ v kontexte.
- Vygenerované korpusy otázok a odpovedí pre SKWIKI a prokuratúru.
- Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. Augmntovaná množina má zatiaľ 30k otázok.
- Vyzerá to tak, že model s augmentovanými dátami je o dosť lepší. Je to naozaj dobre?
Úlohy:
- Overiť či generované množina nie je príliš podobná overovacej.
- Pokračujte v písaní práce , opíšte experimenty, vypracujte tabuľky.
- Pozrite sa na článok O. Megela: Fine-Tuning and Evaluation of Question Generation for Slovak Language
- Pre porovnanie vyhodnotte modely sami (slovak-t5-base), dotrénujute na SKQUAD-train. Vyhodnocujete stále na test časti. POrovnajte s viacerými augmentovanými dátami. V niekroých testoch primiešajte aj skquad train.
Zásobník úloh:
- Publikovať na konferencii.
Stretnutie 25.2. Stretnutie 25.2.
Stav: Stav:

View File

@ -30,6 +30,34 @@ Nápad:
- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
Stretnutie 21.3.2025
Stav:
- Práca na obsahu BP. Stav zatiaľ nie je uspokojivý.
- Pridaný Ingress do aplikácie.
- Pridaný GMETER do monitorovania klastra.
Úlohy:
- Zlepšite text práce. Postupujte od všeobecného ku konkrétnemu. Spojte súvisiace časti. Definujte úlohu, vysvetlite základné pojmy. Predstavte Vaše riešenie. V experimentoch vyhodnotte Vaše riešenie a napíšte záver - nápady na zlepšenie.
- Použite generatívny model na zlepšenie gramaticky a štylistiky.
- Dbajte aby práca spĺňala zadanie.
Stretnutie 27.2.2025
Stav:
- Grafana a Prometheus inštalované cez K8s
- Práca na písomnej časti.
Úlohy:
- Zjednotiť zápis slova klaud
- Opraviť preklepy
- Opraviť šablónu
Stretnutie 31.1.2025 Stretnutie 31.1.2025
Stav: Stav:

View File

@ -23,5 +23,25 @@ Predbežné zadanie:
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
Stretnutie 28.2.2025
Úlohy:
- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
Zásobník úloh:
- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
- Vytvorte korpus medicínskych dát.
- Vytvorte korpus novinových článkov a blogov.
- Vytvorte korpus webových diskusií.
- Vytvorte korpus všeobecných dát.
- Vytvorené texty analyzujte.