This commit is contained in:
Daniel Hládek 2022-11-24 11:08:39 +01:00
commit 870a494434
14 changed files with 860 additions and 32 deletions

View File

@ -22,9 +22,8 @@ Wiki stánka pre spoluprácu na záverečných prácach.
## Predmety ## Predmety
- [Diplomové práce 2022](/categories/dp2022) - [Diplomové práce 2023](/categories/dp2023)
- [Bakalárske práce 2022](/categories/bp2022) - [Bakalárske práce 2023](/categories/bp2023)
- Diplomový projekt 2022-Diplomová práca 2023
## Vedecké projekty ## Vedecké projekty
@ -46,6 +45,11 @@ Wiki stánka pre spoluprácu na záverečných prácach.
## Uzavreté predmety ## Uzavreté predmety
## 2022
- [Diplomové práce 2022](/categories/dp2022)
- [Bakalárske práce 2022](/categories/bp2022)
## 2021 ## 2021
- [Bakalárske práce 2021](/categories/bp2021) - [Bakalárske práce 2021](/categories/bp2021)

View File

@ -3,7 +3,7 @@ title: Maroš Harahus
published: true published: true
taxonomy: taxonomy:
category: [dp2021,bp2019] category: [dp2021,bp2019]
tag: [spacy,nlp] tag: [spelling,spacy,nlp]
author: Daniel Hladek author: Daniel Hladek
--- ---
# Maroš Harahus # Maroš Harahus
@ -11,13 +11,149 @@ taxonomy:
- [Git repozitár ai4steel](https://git.kemt.fei.tuke.sk/ai4steel/ai4steel) (pre členov skupiny) - [Git repozitár ai4steel](https://git.kemt.fei.tuke.sk/ai4steel/ai4steel) (pre členov skupiny)
- [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske) (súkromný) - [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske) (súkromný)
## Dizertačná práca ## Dizertačná práca
Generovanie vektorových reprezentácií štruktúrovaných dát. v roku 2023/24
Automatické opravy textu a spracovanie prirodzeného jazyka
Ciele:
- Zverejniť a obhájiť minimovku
- Napísať dizertačnú prácu
- Publikovať 2 články triedy Q2-Q3
Súvisiaca BP [Vladyslav Krupko](/students/2020/vladyslav_krupko)
## Druhý rok doktorandského štúdia
Ciele:
- *Publikovanie článku Q2/Q3* - podmienka pre pokračovanie v štúdiu.
- *Obhájiť minimovku*. Minimovka by mala obsahovať definíciu riešenej úlohy, prehľad problematiky, tézy dizertačnej práce - vedecké prínosy.
- Poskytnite najnovší prehľad.
- Popísať vedecký prínos dizertačnej práce
- Zverejniť min. 1 príspevok na školskej konferencii.
- Publikovať min. 1 riadny konferenčný príspevok.
- Pripraviť demo.
- Pomáhať s výukou, projektami a výskumom.
Plán činosti na semester:
1. Prediskutovať a vybrať definitívnu tému. Obidve témy sú komplikované.
- Trénovanie jazykových modelov. Cieľom by bolo zlepšenie jazykového modelovania.
- [x] Dá sa nadviazať na existujúce trénovacie skripty.
- [x] Dá sa využiť webový korpus.
- [x] Dá sa využiť naša GPU infraštruktúra. (Na trénovanie menších modelov)
- [x] Veľký praktický prínos.
- [ ] Teoretický prínos je otázny.
- [ ] Naša infraštruktúra je asi slabá na väčšie modely.
- Oprava gramatických chýb.
- [x] Dá sa nadviazať na "spelling correction" výskum a skripty.
- [x] Teoretický prínos je väčší.
- [x] Trénovanie by bolo jednoduchšie na našom HW.
- Posledné review je z [2020](https://scholar.google.sk/scholar?hl=en&as_sdt=0%2C5&q=grammatical+error+correction+survey&btnG=)
2. Napísať prehľadový článok.
- Prečítať existujúce prehľady na danú tému. Zistitť ako boli napísané, kde boli uverejnené, čo je ich prínos. Je dobré použiť metodiku https://www.prisma-statement.org//
- Identifikovať v čom by bol náš prehľad originálny a kde by bolo možné uverejniť.
- Prečítať a zotriediť aspoň 200 článkov na danú tému.
- Zistiť, aké metódy, datasety a spôsoby vyhodnotenia sa používajú.
- Rozšíriť prehľadový článok do formy minimovky.
3. Priebežne pracovať na experimentoch.
- Vybrať vhodnú dátovú množinu a metriku vyhodotenia.
- Vybrať základnú metódu a vyhodnotiť.
- Vyskúšať modifikáciu základnej metódy a vyhodotiť.
4. Napísať 2 konferenčné články.
- Písať si poznámky pri experimentoch.
- Predbežné experimenty zverejniť v krátkom článku.
- Prediskutovať spôsob financovania.
Stretnutie 27.10.
Stav:
- Prečítaných a spoznámkovaných cca 4O článkov na tému "Grammar Error Correction".
- Experimenty strojový preklad s Fairseq. Z toho vznikol článok SAMI.
- Poznámky o Transfer Leaarning. Preštudované GPT3.
- Sú rozpracované ďalšie modely pre strojový preklad. Česko-slovenský.
- https://github.com/KaushalBajaj11/GEC--Grammatical-Error-Correction
- https://github.com/LukasStankevicius/Towards-Lithuanian-Grammatical-Error-Correction
- https://github.com/yuantiku/fairseq-gec
Úlohy:
- Rozbehať fairseq GEC a porozmýšľať ako by a to dalo zlepšiť.
- Pozrieť si prehľad https://scholar.google.sk/scholar?hl=en&as_sdt=0%2C5&q=question+generation&btnG=&oq=question+ge a napísať niekoľko poznámok. Vedeli by sme nájsť prínos?
Nápady:
- Smerovať to na inú generatívnu úlohu podobnú strojovému prekladu. Napríklad "Question generation".
- question generation by sa dalo použiť na zlepšenie QA-IR systémov.
- Možno "multilingual question generation"?
Stretnutie 9.9.2022
Stav:
Počas prázdnin sa pracovalo na experimentoch s fairseq - strojový preklad a Spacy trénovanie, štúdium literatúry.
Úlohy:
- [x] Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané.
- [x] Prečítať niekoľko prehľadov (survey) na tému Neural Language Modelling - BERT Type models. Zistiť, kde je priestor na vedecký prínos.
- [x] Zistiť čo je to Transfer Learning. https://ieeexplore.ieee.org/abstract/document/9134370
- Na obe témy vyhľadať a prečítať niekoľko článkov. Uložiť záznam do databázy, napísať poznánky ku článku.
- [ ] Porozmýšľať nad témou práce.
- [x] Pokračovať v experimenotch fairseq so strojovým prekladom. Vieme pripraviť experiment na tému "spelling", "grammar" alebo training "roberta small", "bart small" na web korpuse? Toto by sa mohlo publikovať na konferenčnom článku do konca roka. treba vybrať dátovú množinu, metodiku vyhodnoteia, metódu trénovania.
- [-] Čítať knihy - Bishop-Patter Recognition. Yang: Transfer Learning.
## Prvý ročník PhD štúdia
29.6.
- Vyskúšané https://github.com/NicGian/text_VAE, podľa článku https://arxiv.org/pdf/1511.06349.pdf
Tento prístup je pôvodne na Question Generation. Využíva GLOVE embeding a VAE. Možno by sa to dalo využiť ako chybový model.
- So skriptami fairseq sú zatiaľ problémy.
Úlohy:
- Pokračovať v otvorených úlohách.
- Vyskúšať tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model.
- Prečítať knihu "Bishop: Pattern Recognition".
17.6.
- Končí financovanie USsteel , je potrebné zmeniť tému.
Úlohy:
- Do konca ďalšieho školského roka submitovať karent článok. To je podmienka pre ďalšie pokračovanie. Článok by mal nadviazať na predošlý výskum v oblasti "spelling correction".
- Preštudovať články:
* Survey of automatic spelling correction
* Learning string distance with smoothing for OCR spelling correction
* Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
* Iné súvisiace články. Kľúčové slová: "automatic spelling correction."
- Naučiť sa pracovať s fairseq. Naučiť sa ako funguje strojový preklad.
- Zopakovať experiment OCR Trec-5 Confusion Track. Pridaný prístup do repozitára https://git.kemt.fei.tuke.sk/dano/correct
Zásobník úloh:
- Vymyslieť systém pre opravu gramatických chýb. Aka Grammarly.
- Využiť GAN-VAE sieť na generovanie chybového textu. To by mohlo pomôcť pri učení NS.
## Minimovka 2023
- Grafové neurónové siete
3.6. 3.6.
@ -431,8 +567,6 @@ Stretnutie: 20.2.2020:
## Tímový projekt 2019 ## Tímový projekt 2019
Projektové stránky: Projektové stránky:

View File

@ -12,7 +12,18 @@ taxonomy:
## Diplomový projekt ## Diplomový projekt
Stretnutie 8.6.
Stav:
- Vypracovaný tutoriál huggingface
- Vytvorený jednoduchý scraper Beautifulsoup na Topky.sk
- Rozpracovaný scraper Selenium
Úlohy:
- Dať kódy na GIT - scraper (twitter, topky) aj tutorial
- Dopísať písomnú správu o tutoriáli (2 až 3 strany) - čo ste sa dozvedeli o BERT, čo ste urobili. Dajte to do README.md.
Stretnutie 20.5.2022 Stretnutie 20.5.2022

View File

@ -0,0 +1,77 @@
---
title: Dávid Omasta
published: true
taxonomy:
category: [dp2023]
tag: [lm]
author: Daniel Hladek
---
Začiatok štúdia: 2018
Súvisiace stránky:
- [Question Answering](/topics/question) - interný projekt
- Jozef Olekšák
- Matej Čarňanský (BERT)
- Ondrej Megela
# Diplomová práca 2023
Téma: Dotrénovanie slovenského generatívneho jazykového modelu.
Vedúci: Ján Staš
Návrh na zadanie DP:
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
- Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články.
- Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom.
- Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu.
- Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia.
Ciele na zimný semester:
Praktické:
- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
- Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
- Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
- Vytvorte demonštračnú aplikáciu.
Teoretické:
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
- Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).
Stretnutie 14.10.
Stav:
- Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
- Prečítané články.
Úlohy:
- Pokračovať.
Stretnutie 7.10.
Stav:
- Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,
Úlohy:
- [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články.
- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
- [-] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc.
- [ ] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.
Zásobník úloh:
- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
- Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)

View File

@ -17,6 +17,55 @@ Súvisiace stránky:
- [Question Answering](/topics/question) - interný projekt - [Question Answering](/topics/question) - interný projekt
- Matej Čarňanský (BERT) - Matej Čarňanský (BERT)
Pozrieť toto:
https://paperswithcode.com/task/text-generation?page=3
# Diplomová práca 2023
Súvisiace práce:
- Dávid Omasta
Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí.
Stretnutie 28.10
Stav:
- Vyskúšaný slovenský GPT model v rôznych veľkostiach. Generovanie funguje. Obbmedzene funguje aj zero shot sentiment classification. Zagtiaľ nefuguje pre generovanie otázok.
Úlohy:
- Pokračovať v Zero Shot: Vymeniť Sentence za Veta. Pozrieť Separátor v slovníku.
- Skúsiť rozbehať run_clm pre slovenský GPT model pre úlohu generovania otázok. Poskytnutý prístup do repozitára bert-train. Ak skript bude fungovať, tak ho pridajte do repozitára bert-train/huggingface/clm
Zásobník úloh:
- Možno by sa dalo formulovať úlohu ako klasický machne translation a použiť niekotrý existujúci setup pre preklad bez predtrénovania. Existujú skripty pre fairseq.
- Možno bude fungovať nejaký multilinguálny generatívny model.
Stretnutie 7.10:
Stav:
- PatilSuraj zatiaľ nefunguje. Funguje iba na T5 a Bart vlastné anglické, nefunguje na gpt-j ano na mt5. Stále je tam možnosť vyskúšať vlastný slovenský BART.
Úlohy:
- [x] Vyskúšať slovenský GPT model v úlohe few-shot learning. Inšpirácia https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api. Použite niektorý prístup z patilsuraj.
- [ ] Vyoracujte písomný prehľad generatívnych jazykových modelov.
- [ ] Vypracujte písomný prehľad metód generovania otázok pomocou jazykového modelu. Nezabudnite na odkazy na odbornú literatúru.
Zásobník úloh:
- [ ] Dotrénovať slovenský GPT model pomocou HF skriptu run_clm.py
- [ ] Zistiť aký veľký model nám funguje.
- [ ] Vybrať vhodný server na dorénovanie. Koľko GRAM potrebujeme?
- [ ] Záložná možnosť - písať pre anglický jazyk.
## Diplomový projekt 1 2022 ## Diplomový projekt 1 2022
Cieľ: Cieľ:
@ -24,11 +73,23 @@ Cieľ:
- Vytvoriť a vyhodnotiť generatívny model slovenského jazyka. - Vytvoriť a vyhodnotiť generatívny model slovenského jazyka.
- Navrhnúť a vytvoriť overovaciu množinu pre slovenské generatívne modely. - Navrhnúť a vytvoriť overovaciu množinu pre slovenské generatívne modely.
Stretnutie 29.6.
- Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia.
- Vyskúšané nasadenie Multilingual T5. Podarilo sa ho nahrať. Chyba "index Out Of Range".
Úlohy:
- Pokračovať v otvorených úlohách. Rozbehať skripty "patil-suraj".
Zásobník úloh:
- Vyskúšať existujúci slovenský BART model (od vedúceho).
- Natrénovať a vyskúšať nový slovenský BART model (aj pre vedúceho).
Stretnutie 8.4. Stretnutie 8.4.
Prezreté sú tri repozitáre. Prezreté sú tri repozitáre. kompatibilné s HF Transformers
kompatibilné s HF Transformers
https://github.com/p208p2002/Transformer-QG-on-SQuAD#seq2seq-lm https://github.com/p208p2002/Transformer-QG-on-SQuAD#seq2seq-lm
- Používa modely GPT-2, BART,T5, upravený „BERT“ - Používa modely GPT-2, BART,T5, upravený „BERT“

View File

@ -18,6 +18,7 @@ Návrh na zadanie:
4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania. 4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia. 5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
TO-DO na Diplomovku
Cieľ práce: Cieľ práce:
- Zlepšiť proces získavania informácií - Zlepšiť proces získavania informácií
@ -29,9 +30,62 @@ Cieľ práce:
Ciele: Ciele:
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster. - Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
- Implementovať algoritmus pre zoradenie (ranking) dokumentov v takejto databáze. -
22.8.2022
- Praca skontrolovana pripravena na odovzdanie, treba este poriesit zadavaci list
9.8.2022
- Doplnene grafy z grafany do prace
8.8.2022
- Skontrolovana praca pridane komentare
- Student opravil chyby podla komentarov
3.8.2022
- Poslana praca na kontrolu
1.8.2022
- Prakticka cast hotova
- Dohodnutie sa na pisani praktickej casti
25.7.2022
- 1 Giga týka je takmer nemožné kedže je tam teraz 2 milióby entries ( zápis trval vyše 3 hodin a 2 razy mi plne spadlo spojenie ( preto usudzujem že celonočný zápis nebude veľmi účinný )) a má to len 50 Mb, hladal som softwárové riešenia ktoré by generovali veľké množstvo dát pre cassandru, avšak čo som našiel bolo len na normálnu cassandru a nie na k8ssandru bežiacu na kubernete
25.7.2022
- Vytvoreni script na generovanie udajov
- Skusanie scriptu
- nainstalovana Grafana
22.7.2022
- Testovanie clustra prenasanie suborov atd
8.7.2022
- Stretnutie čo dalej
2.6.2022
- Presuvame pracu na September pretoze nestiahame pravit prenasany predmet
6.5.2022
- Teoreticka praca skontrolovane subezne praca na praktickej casti
8.4.2022
- Práca na teoretickej casti prace
1.4.2022
- Dohodli sme sa ze vynechame Page rank a budeme sa sustredit iba na distribuovane ulozisko
14.3.2022
- Page rank implemetovany, beži ale nie v takej forme aku si prestavujeme
1.3.2022
- Problem pri implementácii page ranku
22.2.2022
- K8ssandra nainštalovaná na virtuálnych strojoch
15.2.2022 15.2.2022
- Kubernetes beží na virtualkach. Potreba nainštalovať ešte k8ssandru, dnes - Kubernetes beží na virtualkach. Potreba nainštalovať ešte k8ssandru, dnes

View File

@ -9,6 +9,92 @@ taxonomy:
rok začiatku štúdia: 2019 rok začiatku štúdia: 2019
# Vedecky projekt 2022/23
Návrh na zadanie diplomovej práce:
- Vypracujte prehľad najnovších metód sémantického vyhľadávania pomocou neurónvých sietí.
- Vyberte vhodnú metódu pre vyhľadávanie a modifikujte ju tak aby bola použiteľná pre slovenské texty.
- S vybranou metódou vykonajte experiment s vyhľadávaním. Metódu porovnajte s najmenej jednou inou metódou.
- Vyhodnoťte experimenty a identifikujte slabé miesta a navrhnite zlepšenia.
Ciele DP:
- Bolo by fajn, keby z DP bol vedecký článok.
- Dotrénovať slovenský ST model.
- Porovnať viacero metód na vyhľadávanie v slovenskom texte - BM25, TF IDF, WordEmbedding, SentenceTransformers, Alebo iné embeddingy.
Súvisiace práce:
- Matej Kobyľan
- Suchanič
Ciele na semester:
- Zistiť ktorá knižnica je dobrá a ktorý model je dobrý na slovenské vyhľadávnaie vo wikipédii pre QA.
- Možnosti pre knižnice sú: JinaDocArray, Elasticsearch-Opensearch, Faiss, Haystack
- Možnosti pre modely sú: DPR, LABSE, LASER, Iný Sentence Transformer, WordEmbedding.
- Vypracovat demonštračné vyhľadávanie v slovenskej wikipédii.
- Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany
- Vyslovit ciele diplomovej prace.
Klucove slova:
- Jina, Rasa, Vektorova Databaza
- Hierarchicke vztahy medzi dokumentami
- Faiss, Elasticsearch-Opensearch, Fasttext
- https://aclanthology.org/2020.emnlp-main.550/, Dense Passage Retrieval for Open-Domain Question Answering.
- Urobit demo vyhladavanie v slovenskej wikipedii.
- LABSE, LASER embedding model
- multi language IR
Stretnutie 10.11.2022
Stav:
- Konvertovaný SCNC do JSON.
- Práca s Jina-Elasticsearch pre uloženie embeddingov.
- Prečítaný a spoznámkovaný článok "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation".
Úlohy:
- Rozbehať skript SlovakRetrieval ktorý využíva FAISS. V skripte je už aj BM25, ostatné modely aj vyhodnotenie Recall na množine SK QUAD.
- Vytvoriť slovenské vyhľadávanie pomocou WordEmbeding. Použiť slovenský Spacy Model.
- Prečítať a spoznámkovať ďalšie články z https://github.com/UKPLab/sentence-transformers
Zasobnik uloh:
- Dotrénovať sentence transformer na slovenský jazyk. Ako?
Stretnutie 14.10.2022
Ulohy:
- Precitat si clanok, napiste poznamky
- Navrhnite na co by ste sa chceli sustredit.
Stav:
- Naštudovaný článok Kharpukin Dense Passage Retrieval
- Naštudované Jina-DocArray.
- Je k dispozícci ES na školskom servri - aj tak je lepšie pracovať na vlastnej inštancii.
Úlohy:
- Dodaný skript na indexovanie SCNC do ES. Upravte skript na Jina DocArray
- Skúste zaindexovať slovenské dokumenty pomocou JinaDoc Array. Vyberte vhdoný existujúci model, napr. LABSE.
- Skúste ich vyhľadávať.
- Nájdite si článok o vyhľadávaní pomocou LABSE. Napíšte si z neho poznámky. Ako prebieha vyhľadávanie pomocou LABSE?
Zásobník úloh:
- skúste zaindexovať slovenské dokumenty pomocou Elasticsearch.
- Zistite ako funguje vektorové vyhľadávanie v ES.
# Bakalárska práca 2022 # Bakalárska práca 2022

View File

@ -0,0 +1,12 @@
# Dense Passage Retrieval for Open-Domain Question Answering
## Clanok č.1
### Dense Passage Retriever (DPR)
- výskum tejto práce je zameraný na zlepšenie vyhľadávania v QA.
- pre používanie DPR je dôležité používať správny Encoder, ktorý mapuje text na dimenzionálne vektory skutočnej hodnoty a vytvára index __M__, ktorý sa používa pre vyhľadávanie
- pri behu DPR sa aplikuje iný Enkóder, ktorý mapuje vstupnú otázku na d-rozmerný vektor, a vyhľadáva podľa toho ktorý vektor je najbližšie k vektoru otázky. Podobnosť medzi otázkou a pasážou definujeme pomocou bodového súčinu ich vektorov.
- doležitou súčasťou takéhoto vyhľadávania je správne vypočítanie kosínusovej vzdialenosti.
- trénovanie Encodera sa vykonáva z dôvodu lepšieho vypočítania metrických údajov.
- cieľ trénovania je vytvorenie dvoch vektorov, tak aby tieto dve relevantné dvojice otázok a odpovedí mali najmenšiu vzdialenosť medzi sebou.
__Pozitívne a negatívne pasáže__
- pri vyhľadávaní sa často stretávame s pozitívnymi výsledkami ktoré sú k dispozícii explicitne, zatiaľ čo negatívne výsledky je potrebné vybrať z veľkého súboru.

View File

@ -0,0 +1,8 @@
# Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation
## Abstrak
- tento článok predstavuje vylepšenia vyhľadávania, na základe rozšírenia modelu, pomocou pridania nových viet do modelu.
- tieto vety su podobne tym ktore sa uz nachadzali v modeli, a vypocitane vektory by mali byt umiestnene, tak aby boli blyzko pri predtym vypocitanom embedingu.
- pri takomto trenovani pouzivame trenovanie viacjazycnych viet.
- vyhodou takéhoto použitia je jednoduché rozšírenie existujúcich modelov s relatívne malým počtom vzoriek.
- článok je zameraný na ukážku účinosti vyhľadávania pre viac ako 50 jazykov z rôznych rodín, v konečnom dôsledku to môže znamenať aj zahrnutie slovenského jazyka.

View File

@ -0,0 +1,71 @@
---
title: Jakub Kristián Lukas
published: true
taxonomy:
category: [bp2023]
tag: [hatespeech]
author: Daniel Hladek
---
rok začiatku štúdia: 2020
# Bakalárska práca 2023
Téma: Systém pre rozpoznávanie nenávistnej reči v online diskusiách
Súvisí s PhD prácou [Manohar Gowdru Shridhara](students/2021/manohar_gowdru_shridharu)
Návrh na zadanie:
- Preštudovať teóriu.
- Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers.
- Vypracovať webové demo.
Stretnutie 3.111.
Stav:
- štúdium Python.
- Vyskúšané niektoré HF HS modely.
Úlohy:
- Prejdite si Streamlit tutoriál.
- Pokračovať v otvorených úlohách. Spojazdnite streamlit HS demo. Píšte si poznámky z prehľadového článku, Prečítajte si súvisiace články a napíšte poznánky.
Stretnutie 7.10.
Stav:
- Nainštalované prostredie Anadonda, HF, Pytorch
- Zdieľaný priečinok [google drive](https://drive.google.com/drive/folders/1voblyxpAwsjNWBSFB-8F_heQCb5cGakJ?usp=sharing)
- Vypracovaný text na 2 strany o BERT modeli.
Úlohy:
- [ ] Prečítať a napísať poznámky na jednu stranu. Pozrite si aj súvisiace články,
- https://arxiv.org/abs/2004.06465
- [ ] Prejdite si HF Tutoriál.
- [ ] Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit
- [x] Prejdite si knihu Dive into Python 3.
- [x] Vyskúšať a preštudovať tieto modely
- https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english
- https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection
Stretnutie 29.9.
Stav:
- Oboznamili sme sa s projektom.
Úlohy:
- Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články.
- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri idoc.
- [x] Nainštalovať Anaconda
- [x] Nainštalovať Pytorch
- [x] nainštalujete transformers.
- [ ] prejdide si tutoriál

View File

@ -0,0 +1,77 @@
---
title: Matej Kobyľan
published: true
taxonomy:
category: [bp2023]
tag: [ir]
author: Daniel Hladek
---
rok začiatku štúdia: 2020
# Bakalárska práca 2023
Systém pre monitoring médií
Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko)
Návrh na zadanie:
- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
- Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch.
- Aplikujte neurónovú sieť na klasifikáciu získaných článkov.
Analýza úlohy:
Chceme vytvoriť databázu novinových článkov.
Pre článok chceme evidovať:
- zdroj
- autor
- titulok
- text rozdelený na odseky
- odkazy na iné články
- autorská sekcia
- autorské tagy alebo kľúčové slovíčka.
- perex
- dátum vydania.
- pôvodné html
Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať.
Ku databáze chceme vytvoriť webové rozhranie.
V databáze chceme vedieť vyhľadávať.
Chceme vedieť automaticky zistiť tému článku.
Chceme automaticky zistiť sumár článku.
- Vyberte vhodnú databázu.
- Postgres, Cassandra.
- Navrhnite schému.
- Modifikujte agenta pre zber textu.
- Implementujte webové rozhranie na prístup k databáze.
Stretnutie 30.9.2022
Úlohy:
- Prečítajte si záverečné práce J. Holp, M. Stromko.
- Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte čláonky ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov.
- Nainštalujte si systém Anaconda.
- Prejdite si Python tutoriál.
- Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu.
- Pomocou systému Docker si nainštalujte Elasticsdaerch 8.4
- Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html
Zásobník úloh:
- Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky.
- Oboznámte sa s kódom agenta websucker.
- Zistite, ako funguje knižnica BeautifulSoup.
- Urobte si GIT repozitár, kde budeme dávať kódy.

View File

@ -2,18 +2,79 @@
title: Matúš Suchanič title: Matúš Suchanič
published: true published: true
taxonomy: taxonomy:
category: [vp2022] category: [vp2022,bp2023]
tag: [spacy,nlp] tag: [ir]
author: Daniel Hladek author: Daniel Hladek
--- ---
rok začiatku štúdia: 2020 rok začiatku štúdia: 2020
# Bakalárska práca 2023
Téma: Vyhľadávanie na slovenskej Wikipédii
Úloha:
- Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií.
- Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií.
Názov:
Automatická kategorizácia slovenského textu
1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód.
2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie.
3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte.
4. Vyhodnotte experimenty a identifikujte slabé miesta zvoleného prístupu.
Práca súvisí s:
- [DP Michal Stromko](/students/2019/michal_stromko)
- [BP Matej Kobyľan](/students/2020/matej_kobylan)
Stretnutie 28.10.2022
Stav:
- Preštudované články o text categorization, BERT, KNN. Napísaný krátky report.
Úlohy:
- Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP.
- Pokračujte v experimente s HF transformers a kategorizáciou.
- Pozrite si skripty na repozitári slovakretrieval a skúste ich rozbehnúť.
Zásobník úloh:
- Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií.
- Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie.
Stretnutie 30.9.2022:
Stav:
- Je nainštalovaný Anaconda a HF transformers.
Úlohy:
- [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.
- [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.
- [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany.
- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli.
- [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.
Zásobník úloh:
- [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze.
# Vedecký projekt 2022 # Vedecký projekt 2022
Extrakcia informácií z webových stránok Extrakcia informácií z webových stránok
Finálny cieľ: Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník) - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)

View File

@ -0,0 +1,45 @@
---
title: Vladyslav Krupko
published: true
taxonomy:
category: [bp2023]
tag: [spelling]
author: Daniel Hladek
---
rok začiatku štúdia: 2020
# Bakalárska práca 2023
Téma: Oprava preklepov v slovenskom jazyku.
Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus).
Cieľ:
- Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód.
- Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete.
- Naprogramovať webovú demo aplikáciu.
Stretnutie 29.9.2022
Úlohy:
- Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany.
- Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration.
- Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra.
- Nainštalujte si systém Anaconda.
- Nainštalujte si knižnicu Pytorch
- Nainštalujte si systém Fairseq
- Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html
Zásobník úloh:
- Vybrať dáta a urobiť experiment.
- naprogramovať demo.

View File

@ -20,28 +20,81 @@ Hate Speech Detection
Goals: Goals:
- Publish and defend a minimal thesis
- Write a dissertaion thesis - Write a dissertaion thesis
- Publish 2 A-class journal papers - Publish 2 A-class journal papers
## Minimal Thesis ## Second year of PhD study
(preliminary dissertaion and exam in 2022/23)
Goals: Goals:
- Provide state-of-the-art overview. - Publish and defend a minimal thesis. Minimal thesis should contain PhD thesis statements - scientific contributions.
- Formulate dissertation theses (describe scientific contribution of the thesis). - Provide state-of-the-art overview.
- Prepare to reach the scientific contribution. - Formulate dissertation theses (describe scientific contribution of the thesis).
- Publish 4 conference papers. - Prepare to reach the scientific contribution.
- Publish Q2/Q3 paper
- Publish 1 school conference paper.
- Publish 1 regular conference paper.
- Prepare a demo for hate speech detection.
Meeting 5.10.
Status:
Studied python and ML:
- Basics to Advanced python is completed
- word2vec and word embedding examples are tried
- Basic tools (tensorflow) on Machine Learning and task are completed
- learning on ML and Deep learning libraries and fairseq RNN, SVM BERT code samples
Building the datasets memes based on Dravidian languages:
- Collected base papers on Hate speech Multilanguage troll and not troll memes with low resource languages
Currected the survey paper and shared for review.
Worked on the baseline HS expriment.
- https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit
Tasks:
- Publish a paper on SAMI 2023
- publish a paper on a school conference, ask for deadline.
Possible paper topics:
- contine to work on the baseline HS experiment. Evaluate accuracy for the classifiers. This is a possible simple publication.
- continue to work on the horsehead experiment. This is another possible paper.
- continue work on the dravidian dataset. this in another possible papers.
- continue to work on the survey paper. This is another possible Q3 paper.
Meeting 6.9.2022
Status:
- Managed to move to Kosice.
- "A systematic review of Hate Sppech" is in progress (cca 50 pages + 100 references).
- "Horseheard" paper is in progress.
Tasks:
- Gather feedback for "Systematic review",make new revisions according to the feedback, select a journal and publish.
- Pick dataset, prepare several methods of HS and compare results.
- Work on web demo of HS detection.
- Continue working on "horseheard paper".
- Read provided books.
## First year of PhD study ## First year of PhD study
Goals: Goals:
- Provide state-of-the-art overview. - [x] Provide state-of-the-art overview.
- Read and make notes from at least 100 scientific papers or books. - [x] Read and make notes from at least 100 scientific papers or books.
- Publish at least 2 conference papers. - [ ] Publish at least 2 conference papers.
- Prepare for minimal thesis. - [x] Prepare for minimal thesis.
Resources: Resources:
@ -52,20 +105,94 @@ Resources:
- [Resources and benchmark corpora for hate speech detection: a systematic review] - [Resources and benchmark corpora for hate speech detection: a systematic review]
(https://link.springer.com/article/10.1007/s10579-020-09502-8) (https://link.springer.com/article/10.1007/s10579-020-09502-8)
## Meeting 24.5. Meeting 5.10.
- shared colab notebook, with on-going implementation of mayfly algorithm for preprocessing in sentiment recogniution in a twitter dataset. Status:
Studied python and ML:
- Basics to Advanced python is completed
- word2vec and word embedding examples are tried
- Basic tools (tensorflow) on Machine Learning and task are completed
- learning on ML and Deep learning libraries and fairseq RNN, SVM BERT code samples
Building the datasets memes based on Dravidian languages:
- Collected base papers on Hate speech Multilanguage troll and not troll memes with low resource languages
Currected the survey paper and shared for review.
Worked on a baseline HS experiment:
https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit
Tasks:
- Publish a paper about the dataset on the SAMI 2023 Conference.
- Publish a paper in school journal - ask about deadlilne.
14.7:
Status:
- Worked on an horseheard implementation.
- Picked a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews.
- Worked on a paper.
- Studied several papers,
- started to work on a streamlit demo
Open tasks:
- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. PLEASE DO NOT AVOID !!!!
- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NOT AVOID !!!! The goal is to identify the most current trends in methods for HS detection. Write in your own words what did you learn from the literature. Write what will be you contribution. Contribution is something new that we have to prove that is new and better.
- Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD
- For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit
Read Papers :
- https://aclanthology.org/2020.peoples-1.6.pdf
- https://aclanthology.org/2022.ltedi-1.14/
- https://arxiv.org/abs/2108.03867
- https://arxiv.org/pdf/2112.15417v4.pdf
- https://arxiv.org/ftp/arxiv/papers/2202/2202.04725.pdf
- https://github.com/manikandan-ravikiran/DOSA/blob/main/EACL_Final_Paper.pdf
- https://aclanthology.org/2020.icon-main.13.pdf
- http://ceur-ws.org/Vol-3159/T6-4.pdf
- https://www.researchgate.net/publication/353819476_Hope_Speech_detection_in_under-resourced_Kannada_language
- https://www.researchgate.net/publication/346964457_Creation_of_Corpus_and_analysis_in_Code-Mixed_Kannada-English_Twitter_data_for_Emotion_Prediction
- https://www.semanticscholar.org/paper/Detecting-stance-in-kannada-social-media-code-mixed-SrinidhiSkanda-Kumar/f651d67211809f2036ac81c27e55d02bd061ed64
- https://www.academia.edu/81920734/Findings_of_the_Sentiment_Analysis_of_Dravidian_Languages_in_Code_Mixed_Text
- https://competitions.codalab.org/competitions/30642#learn_the_details
- https://paperswithcode.com/paper/creation-of-corpus-and-analysis-in-code-mixed
- https://paperswithcode.com/paper/hope-speech-detection-in-under-resourced#code
## Meeting 13.6.
- Implemented a Mayfly and Horse Heard Algorithms in Python and Matlab for HS datasets.
- Written a draft of a paper.
- Performed experiments on HS with Word2Vec, FastText, OneHot.
Tasks:
- Implement open tasks from the previous meetings !!!!!!!!
- Share Scripts with GIT and Drafts with Online Word or Docs !!!
- try https://huggingface.co/cardiffnlp/twitter-roberta-base-hate, try to repeat the training and evaluation
## Meeting 24.5.
- shared colab notebook, with on-going implementation of mayfly algorithm for preprocessing in sentiment recognition in a twitter dataset.
Tasks: Tasks:
- Implement open tasks from the previous meetings !!! - Implement open tasks from the previous meetings !!!
- Focus on making a baseline experiment for sentiment classification using classcal methods, such as Transformers. - [ ] Focus on making a baseline experiment for sentiment classification using classcal methods, such as Transformers.
- Consider using pre-trained embeddings. FastText, word2vec, sentence-transformers, Labse, Laser, - [x] Consider using pre-trained embeddings. FastText, word2vec, sentence-transformers, Labse, Laser,
Supplemental tasks: Supplemental tasks:
- Fininsh the mayfly implementation - [x] Fininsh the mayfly implementation
## Meeting 20.5. ## Meeting 20.5.