From 2244c154f9dc06ac20e4cb2cbff24111fc18d2aa Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 8 Jun 2022 08:23:11 +0000 Subject: [PATCH 01/81] Update 'pages/students/2017/martin_jancura/README.md' --- pages/students/2017/martin_jancura/README.md | 11 +++++++++++ 1 file changed, 11 insertions(+) diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index cbcd30d5..0cf1054b 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -12,7 +12,18 @@ taxonomy: ## Diplomový projekt +Stretnutie 8.6. +Stav: + +- Vypracovaný tutoriál huggingface +- Vytvorený jednoduchý scraper Beautifulsoup na Topky.sk +- Rozpracovaný scraper Selenium + +Úlohy: + +- Dať kódy na GIT - scraper (twitter, topky) aj tutorial +- Dopísať písomnú správu o tutoriáli (2 až 3 strany) - čo ste sa dozvedeli o BERT, čo ste urobili. Dajte to do README.md. Stretnutie 20.5.2022 From b9ca3c5679d83e20a7bc2d168daf15e067f67b8b Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 13 Jun 2022 12:00:06 +0000 Subject: [PATCH 02/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 20 ++++++++++++++----- 1 file changed, 15 insertions(+), 5 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index c7d32b67..1052dc3a 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -52,20 +52,30 @@ Resources: - [Resources and benchmark corpora for hate speech detection: a systematic review] (https://link.springer.com/article/10.1007/s10579-020-09502-8) +## Meeting 13.6. + +- Implemented a Mayfly and Horse Heard Algorithms in Python and Matlab for HS datasets. +- Written a draft of a paper. +- Performed experiments on HS with Word2Vec, FastText, OneHot. + +Tasks: + +- Implement open tasks from the previous meetings !!!!!!!! +- Share Scripts with GIT and Drafts with Online Word or Docs !!! + ## Meeting 24.5. -- shared colab notebook, with on-going implementation of mayfly algorithm for preprocessing in sentiment recogniution in a twitter dataset. - +- shared colab notebook, with on-going implementation of mayfly algorithm for preprocessing in sentiment recognition in a twitter dataset. Tasks: - Implement open tasks from the previous meetings !!! -- Focus on making a baseline experiment for sentiment classification using classcal methods, such as Transformers. -- Consider using pre-trained embeddings. FastText, word2vec, sentence-transformers, Labse, Laser, +- [ ] Focus on making a baseline experiment for sentiment classification using classcal methods, such as Transformers. +- [x] Consider using pre-trained embeddings. FastText, word2vec, sentence-transformers, Labse, Laser, Supplemental tasks: -- Fininsh the mayfly implementation +- [x] Fininsh the mayfly implementation ## Meeting 20.5. From e80a20c38c870748d133721d996939502a5ced0c Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 14 Jun 2022 10:04:45 +0000 Subject: [PATCH 03/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 1052dc3a..a78fa781 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -62,6 +62,9 @@ Tasks: - Implement open tasks from the previous meetings !!!!!!!! - Share Scripts with GIT and Drafts with Online Word or Docs !!! +- try https://huggingface.co/cardiffnlp/twitter-roberta-base-hate, try to repeat the training and evaluation + + ## Meeting 24.5. From 0618cd761030e47c19ff9f0a86f53aae6c408bb5 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 17 Jun 2022 08:57:30 +0000 Subject: [PATCH 04/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 27 ++++++++++++++++++++- 1 file changed, 26 insertions(+), 1 deletion(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index c2795b70..cc93b7df 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -14,10 +14,35 @@ taxonomy: ## Dizertačná práca Generovanie vektorových reprezentácií štruktúrovaných dát. +(zmeniť?) + ## Minimovka 2023 -- Grafové neurónové siete +- Grafové neurónové siete (zmeniť?) + +17.6. + +- Končí financovanie USsteel , je potrebné zmeniť tému. + + +Úlohy: + +- Do konca ďalšieho školského roka submitovať karent článok. To je podmienka pre ďalšie pokračovanie. Článok by mal nadviazať na predošlý výskum v oblasti "spelling correction". +- Preštudovať články: + * Survey of automatic spelling correction + * Learning string distance with smoothing for OCR spelling correction + * Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction + * Iné súvisiace články. Kľúčové slová: "automatic spelling correction." +- Naučiť sa pracovať s fairseq. Naučiť sa ako funguje strojový preklad. +- Zopakovať experiment OCR Trec-5 Confusion Track. + +Zásobník úloh: + +- Vymyslieť systém pre opravu gramatických chýb. Aka Grammarly. +- Využiť GAN-VAE sieť na generovanie chybového textu. To by mohlo pomôcť pri učení NS. + + 3.6. From bc67b44c679e233ee146621c10ad04a4f49470ff Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 17 Jun 2022 09:02:03 +0000 Subject: [PATCH 05/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index cc93b7df..26a758ee 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -35,7 +35,8 @@ Generovanie vektorových reprezentácií štruktúrovaných dát. * Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction * Iné súvisiace články. Kľúčové slová: "automatic spelling correction." - Naučiť sa pracovať s fairseq. Naučiť sa ako funguje strojový preklad. -- Zopakovať experiment OCR Trec-5 Confusion Track. +- Zopakovať experiment OCR Trec-5 Confusion Track. Pridaný prístup do repozitára https://git.kemt.fei.tuke.sk/dano/correct + Zásobník úloh: From 8e1f7c398922c1d5fc5a5a272ee744b54dbdbff1 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 29 Jun 2022 08:19:43 +0000 Subject: [PATCH 06/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 4e2050ef..7de6da04 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -24,10 +24,13 @@ Cieľ: - Vytvoriť a vyhodnotiť generatívny model slovenského jazyka. - Navrhnúť a vytvoriť overovaciu množinu pre slovenské generatívne modely. +Stretnutie 29.6. + +- Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia. + Stretnutie 8.4. -Prezreté sú tri repozitáre. -kompatibilné s HF Transformers +Prezreté sú tri repozitáre. kompatibilné s HF Transformers https://github.com/p208p2002/Transformer-QG-on-SQuAD#seq2seq-lm From 8ceb2ef2aac73f69a0cec2e10bdc0b938ad30a5b Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 29 Jun 2022 08:23:26 +0000 Subject: [PATCH 07/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 7de6da04..d5c9e806 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -26,13 +26,13 @@ Cieľ: Stretnutie 29.6. -- Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia. +- Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia. +- Vyskúšané nasadenie Multilingual T5. Podarilo sa ho nahrať. Chyba "index Out Of Range". Stretnutie 8.4. Prezreté sú tri repozitáre. kompatibilné s HF Transformers - https://github.com/p208p2002/Transformer-QG-on-SQuAD#seq2seq-lm - Používa modely GPT-2, BART,T5, upravený „BERT“ - vstup ide odsek + zvýraznená odpoveď pomocou tokenu [HL] From 8c88c44684c89baabeecbdc1d715770087a5c376 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 29 Jun 2022 08:27:37 +0000 Subject: [PATCH 08/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index d5c9e806..f9aebee3 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -29,6 +29,15 @@ Stretnutie 29.6. - Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia. - Vyskúšané nasadenie Multilingual T5. Podarilo sa ho nahrať. Chyba "index Out Of Range". +Úlohy: + +- Pokračovať v otvorených úlohách. Rozbehať skripty "patil-suraj". + +Zásobník úloh: + +- Vyskúšať existujúci slovenský BART model (od vedúceho). +- Natrénovať a vyskúšať nový slovenský BART model (aj pre vedúceho). + Stretnutie 8.4. Prezreté sú tri repozitáre. kompatibilné s HF Transformers From 243a461dc676d00ddfbd743679e8d3686bc79596 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 29 Jun 2022 08:55:22 +0000 Subject: [PATCH 09/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 26a758ee..9c5072d5 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -21,6 +21,19 @@ Generovanie vektorových reprezentácií štruktúrovaných dát. - Grafové neurónové siete (zmeniť?) +29.6. + +- Vyskúšané https://github.com/NicGian/text_VAE, podľa článku https://arxiv.org/pdf/1511.06349.pdf +Tento prístup je pôvodne na Question Generation. Využíva GLOVE embeding a VAE. Možno by sa to dalo využiť ako chybový model. +- So skriptami fairseq sú zatiaľ problémy. + +Úlohy: + +- Pokračovať v otvorených úlohách. +- Vyskúšať tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model. +- Prečítať knihu "Bishop: Pattern Recognition". + + 17.6. - Končí financovanie USsteel , je potrebné zmeniť tému. From 830425a99fcfd27dd714f622e6e3fc2bac4fff55 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:05:28 +0000 Subject: [PATCH 10/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 33 +++++++++++++++++++ 1 file changed, 33 insertions(+) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index a78fa781..c1a5025b 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -52,6 +52,39 @@ Resources: - [Resources and benchmark corpora for hate speech detection: a systematic review] (https://link.springer.com/article/10.1007/s10579-020-09502-8) +14.7: + + Installed VPN - Done + Setup School GITHUB - Done + Set up a repository for experiments, use the school git server git.kemt.fei.tuke.sk. - Done + Pick a feasible dataset and method to start with. - Done + Try to prepare an experiment with the selected dataset. - Done + Summarize the results in the table and publish the table on git. . - Done + Finish experiments, upload source codes into git, and describe the experiments. . - Done + For preparing a web application with demo, learn about streamlit. . - Done + Publish experiments into the repository. . - Done + +Todo: + Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. + +Papers : + +- https://aclanthology.org/2020.peoples-1.6.pdf +- https://aclanthology.org/2022.ltedi-1.14/ +- https://arxiv.org/abs/2108.03867 +- https://arxiv.org/pdf/2112.15417v4.pdf +- https://arxiv.org/ftp/arxiv/papers/2202/2202.04725.pdf +- https://github.com/manikandan-ravikiran/DOSA/blob/main/EACL_Final_Paper.pdf +- https://aclanthology.org/2020.icon-main.13.pdf +- http://ceur-ws.org/Vol-3159/T6-4.pdf +- https://www.researchgate.net/publication/353819476_Hope_Speech_detection_in_under-resourced_Kannada_language +- https://www.researchgate.net/publication/346964457_Creation_of_Corpus_and_analysis_in_Code-Mixed_Kannada-English_Twitter_data_for_Emotion_Prediction +- https://www.semanticscholar.org/paper/Detecting-stance-in-kannada-social-media-code-mixed-SrinidhiSkanda-Kumar/f651d67211809f2036ac81c27e55d02bd061ed64 +- https://www.academia.edu/81920734/Findings_of_the_Sentiment_Analysis_of_Dravidian_Languages_in_Code_Mixed_Text +- https://competitions.codalab.org/competitions/30642#learn_the_details +- https://paperswithcode.com/paper/creation-of-corpus-and-analysis-in-code-mixed +- https://paperswithcode.com/paper/hope-speech-detection-in-under-resourced#code + ## Meeting 13.6. - Implemented a Mayfly and Horse Heard Algorithms in Python and Matlab for HS datasets. From fcfbf6e317c7b33240cae53f7e6c00d1ec4c298d Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:08:25 +0000 Subject: [PATCH 11/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 21 ++++++++----------- 1 file changed, 9 insertions(+), 12 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index c1a5025b..c3fe00b5 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -54,20 +54,17 @@ Resources: 14.7: - Installed VPN - Done - Setup School GITHUB - Done - Set up a repository for experiments, use the school git server git.kemt.fei.tuke.sk. - Done - Pick a feasible dataset and method to start with. - Done - Try to prepare an experiment with the selected dataset. - Done - Summarize the results in the table and publish the table on git. . - Done - Finish experiments, upload source codes into git, and describe the experiments. . - Done - For preparing a web application with demo, learn about streamlit. . - Done - Publish experiments into the repository. . - Done +- Pick a feasible dataset and method to start with. - Done +- Try to prepare an experiment with the selected dataset. - Done +- Summarize the results in the table and publish the table on git. . - Done +- Finish experiments, upload source codes into git, and describe the experiments. . - Done +- For preparing a web application with demo, learn about streamlit. . - Done -Todo: - Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. +Open tasks: -Papers : +- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. + +Read Papers : - https://aclanthology.org/2020.peoples-1.6.pdf - https://aclanthology.org/2022.ltedi-1.14/ From 5deb5e0177387a5c3367d12c757c01ce07e67791 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:11:22 +0000 Subject: [PATCH 12/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index c3fe00b5..8d253575 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -54,11 +54,11 @@ Resources: 14.7: -- Pick a feasible dataset and method to start with. - Done -- Try to prepare an experiment with the selected dataset. - Done -- Summarize the results in the table and publish the table on git. . - Done +- Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD +- Pick a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews. - Finish experiments, upload source codes into git, and describe the experiments. . - Done -- For preparing a web application with demo, learn about streamlit. . - Done +- Summarize the results in the table and publish the table on git. . - Done +- For preparing a web application with demo, learn about streamlit. https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit Open tasks: From 8d132a7fe0b2ede01f589c88d8d2ba13af6a5851 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:14:33 +0000 Subject: [PATCH 13/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 8d253575..017b8a73 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -54,15 +54,17 @@ Resources: 14.7: +Status: + - Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD - Pick a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews. - Finish experiments, upload source codes into git, and describe the experiments. . - Done - Summarize the results in the table and publish the table on git. . - Done -- For preparing a web application with demo, learn about streamlit. https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit Open tasks: - Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. +- For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit Read Papers : From 7fa2c5ba7fdccff95a37a8b34aaaa7eb9db993d8 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:22:05 +0000 Subject: [PATCH 14/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 017b8a73..b57a1931 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -56,13 +56,13 @@ Resources: Status: -- Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD - Pick a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews. -- Finish experiments, upload source codes into git, and describe the experiments. . - Done -- Summarize the results in the table and publish the table on git. . - Done +- Studied several papers +- started to work on a streamlit demo Open tasks: +- Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD - Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. - For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit From aeb9c4174eff07724519b2bb1d24d07e3fb1ff05 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:28:42 +0000 Subject: [PATCH 15/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 9 ++++++--- 1 file changed, 6 insertions(+), 3 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index b57a1931..8b24a512 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -56,14 +56,17 @@ Resources: Status: -- Pick a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews. -- Studied several papers +- Worked on an horseheard implementation. +- Picked a feasible dataset and method to start with: kannada dataset, tagging sentiment for movie reviews. +- Worked on a paper. +- Studied several papers, - started to work on a streamlit demo Open tasks: +- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. PLEASE DO NO AVOID !!!! +- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NO AVOID !!!! - Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD -- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. - For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit Read Papers : From a8694b8de7619327e304b18f1eeff0a42a7527d2 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:29:17 +0000 Subject: [PATCH 16/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 8b24a512..07808642 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -64,8 +64,8 @@ Status: Open tasks: -- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. PLEASE DO NO AVOID !!!! -- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NO AVOID !!!! +- Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. PLEASE DO NOT AVOID !!!! +- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NOT AVOID !!!! - Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD - For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit From 67b8fffafb97777dbe30a025bada8de2c5c9f3c0 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Jul 2022 09:34:56 +0000 Subject: [PATCH 17/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 07808642..3d901308 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -65,7 +65,7 @@ Status: Open tasks: - Focus on making a baseline experiment for sentiment classification using classical methods, such as Transformers. PLEASE DO NOT AVOID !!!! -- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NOT AVOID !!!! +- Prepare a survey paper for school journal or a conference. Use and correct the draft form the beginning. PLEASE DO NOT AVOID !!!! The goal is to identify the most current trends in methods for HS detection. Write in your own words what did you learn from the literature. Write what will be you contribution. Contribution is something new that we have to prove that is new and better. - Try to prepare an experiment with the selected dataset. https://git.kemt.fei.tuke.sk/mg240ia/Hate_Speech_IMAYFLY_and_HORSEHERD - For preparing a web application with demo, learn about streamlit. In progress: https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit From f9e7d0eaf10b84c3946ea114c1df42fa780fee88 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Maro=C5=A1=20Harahus?= Date: Mon, 22 Aug 2022 05:27:58 +0000 Subject: [PATCH 18/81] Update 'pages/students/2019/david_stromp/README.md' --- pages/students/2019/david_stromp/README.md | 56 +++++++++++++++++++++- 1 file changed, 55 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/david_stromp/README.md b/pages/students/2019/david_stromp/README.md index 7be7da63..65a680d0 100644 --- a/pages/students/2019/david_stromp/README.md +++ b/pages/students/2019/david_stromp/README.md @@ -18,6 +18,7 @@ Návrh na zadanie: 4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania. 5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia. +TO-DO na Diplomovku Cieľ práce: - Zlepšiť proces získavania informácií @@ -29,9 +30,62 @@ Cieľ práce: Ciele: - Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster. -- Implementovať algoritmus pre zoradenie (ranking) dokumentov v takejto databáze. +- + +22.8.2022 +- Praca skontrolovana pripravena na odovzdanie, treba este poriesit zadavaci list + + +9.8.2022 +- Doplnene grafy z grafany do prace + +8.8.2022 +- Skontrolovana praca pridane komentare +- Student opravil chyby podla komentarov + +3.8.2022 +- Poslana praca na kontrolu + +1.8.2022 +- Prakticka cast hotova +- Dohodnutie sa na pisani praktickej casti + +25.7.2022 +- 1 Giga týka je takmer nemožné kedže je tam teraz 2 milióby entries ( zápis trval vyše 3 hodin a 2 razy mi plne spadlo spojenie ( preto usudzujem že celonočný zápis nebude veľmi účinný )) a má to len 50 Mb, hladal som softwárové riešenia ktoré by generovali veľké množstvo dát pre cassandru, avšak čo som našiel bolo len na normálnu cassandru a nie na k8ssandru bežiacu na kubernete + +25.7.2022 +- Vytvoreni script na generovanie udajov +- Skusanie scriptu +- nainstalovana Grafana +22.7.2022 +- Testovanie clustra prenasanie suborov atd + +8.7.2022 +- Stretnutie čo dalej + +2.6.2022 +- Presuvame pracu na September pretoze nestiahame pravit prenasany predmet + +6.5.2022 +- Teoreticka praca skontrolovane subezne praca na praktickej casti + +8.4.2022 +- Práca na teoretickej casti prace + + +1.4.2022 +- Dohodli sme sa ze vynechame Page rank a budeme sa sustredit iba na distribuovane ulozisko + +14.3.2022 +- Page rank implemetovany, beži ale nie v takej forme aku si prestavujeme + +1.3.2022 +- Problem pri implementácii page ranku + +22.2.2022 +- K8ssandra nainštalovaná na virtuálnych strojoch 15.2.2022 - Kubernetes beží na virtualkach. Potreba nainštalovať ešte k8ssandru, dnes From 23cf241a87fda11a9efd611d695d6f190e575902 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 6 Sep 2022 10:46:45 +0000 Subject: [PATCH 19/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 42 ++++++++++++++----- 1 file changed, 31 insertions(+), 11 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 3d901308..34ffcc1d 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -20,28 +20,48 @@ Hate Speech Detection Goals: +- Publish and defend a minimal thesis - Write a dissertaion thesis - Publish 2 A-class journal papers -## Minimal Thesis - -(preliminary dissertaion and exam in 2022/23) +## Second year of PhD study Goals: -- Provide state-of-the-art overview. -- Formulate dissertation theses (describe scientific contribution of the thesis). -- Prepare to reach the scientific contribution. -- Publish 4 conference papers. +- Publish and defend a minimal thesis. Minimal thesis should contain PhD thesis statements - scientific contributions. + - Provide state-of-the-art overview. + - Formulate dissertation theses (describe scientific contribution of the thesis). + - Prepare to reach the scientific contribution. +- Publish Q2/Q3 paper +- Publish 1 school conference paper. +- Publish 1 regular conference paper. +- Prepare a demo for hate speech detection. + +Meeting 6.9.2022 + +Status: + +- Managed to move to Kosice. +- "A systematic review of Hate Sppech" is in progress (cca 50 pages + 100 references). +- "Horseheard" paper is in progress. + +Tasks: + +- Gather feedback for "Systematic review",make new revisions according to the feedback, select a journal and publish. +- Pick dataset, prepare several methods of HS and compare results. +- Work on web demo of HS detection. +- Continue working on "horseheard paper". +- Read provided books. + ## First year of PhD study Goals: -- Provide state-of-the-art overview. -- Read and make notes from at least 100 scientific papers or books. -- Publish at least 2 conference papers. -- Prepare for minimal thesis. +- [x] Provide state-of-the-art overview. +- [x] Read and make notes from at least 100 scientific papers or books. +- [ ] Publish at least 2 conference papers. +- [x] Prepare for minimal thesis. Resources: From 20fe1b96a2baf8f7d567f6c41df2c83cf1880f35 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 6 Sep 2022 10:57:15 +0000 Subject: [PATCH 20/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 30 ++++++++++++++++++--- 1 file changed, 26 insertions(+), 4 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 9c5072d5..f31f92a6 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -11,15 +11,37 @@ taxonomy: - [Git repozitár ai4steel](https://git.kemt.fei.tuke.sk/ai4steel/ai4steel) (pre členov skupiny) - [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske) (súkromný) + + + ## Dizertačná práca -Generovanie vektorových reprezentácií štruktúrovaných dát. -(zmeniť?) +v roku 2023/24 + +Automatické opravy textu a spracovanie prirodzeného jazyka + +Ciele: + +- Zverejniť a obhájiť minimovku +- Napísať dizertačnú prácu +- Publikovať 2 články triedy Q2-Q3 -## Minimovka 2023 +## Druhý rok doktorandského štúdia -- Grafové neurónové siete (zmeniť?) +Ciele: + +- *Publikovanie článku Q2/Q3* - podmienka pre pokračovanie v štúdiu. +- *Obhájiť minimovku*. Minimovka by mala obsahovať definíciu riešenej úlohy, prehľad problematiky, tézy dizertačnej práce - vedecké prínosy. + - Poskytnite najnovší prehľad. + - Popísať vedecký prínos dizertačnej práce +- Zverejniť min. 1 príspevok na školskej konferencii. +- Publikovať min. 1 riadny konferenčný príspevok. +- Pripraviť demo. +- Pomáhať s výukou, projektami a výskumom. + + +## Prvý ročník PhD štúdia 29.6. From bc91f1104952b808e66677900f89dc507e8da2ee Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 8 Sep 2022 13:03:36 +0000 Subject: [PATCH 21/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 51 +++++++++++++++++++-- 1 file changed, 47 insertions(+), 4 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index f31f92a6..51b9b612 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -12,8 +12,6 @@ taxonomy: - [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske) (súkromný) - - ## Dizertačná práca v roku 2023/24 @@ -41,6 +39,53 @@ Ciele: - Pomáhať s výukou, projektami a výskumom. +Plán činosti na semester: + +1. Prediskutovať a vybrať definitívnu tému. Obidve témy sú komplikované. + - Trénovanie jazykových modelov. Cieľom by bolo zlepšenie jazykového modelovania. + - [x] Dá sa nadviazať na existujúce trénovacie skripty. + - [x] Dá sa využiť webový korpus. + - [x] Dá sa využiť naša GPU infraštruktúra. (Na trénovanie menších modelov) + - [x] Veľký praktický prínos. + - [ ] Teoretický prínos je otázny. + - [ ] Naša infraštruktúra je asi slabá na väčšie modely. + - Oprava gramatických chýb. + - [x] Dá sa nadviazať na "spelling correction" výskum a skripty. + - [x] Teoretický prínos je väčší. + - [x] Trénovanie by bolo jednoduchšie na našom HW. + +2. Napísať prehľadový článok. + - Prečítať existujúce prehľady na danú tému. Zistitť ako boli napísané, kde boli uverejnené, čo je ich prínos. Je dobré použiť metodiku https://www.prisma-statement.org// + - Identifikovať v čom by bol náš prehľad originálny a kde by bolo možné uverejniť. + - Prečítať a zotriediť aspoň 200 článkov na danú tému. + - Zistiť, aké metódy, datasety a spôsoby vyhodnotenia sa používajú. + - Rozšíriť prehľadový článok do formy minimovky. + +3. Priebežne pracovať na experimentoch. + - Vybrať vhodnú dátovú množinu a metriku vyhodotenia. + - Vybrať základnú metódu a vyhodnotiť. + - Vyskúšať modifikáciu základnej metódy a vyhodotiť. + +4. Napísať 2 konferenčné články. + - Písať si poznámky pri experimentoch. + - Predbežné experimenty zverejniť v krátkom článku. + - Prediskutovať spôsob financovania. + +Stretnutie 9.9.2022 + +Stav: + +Počas prázdnin sa pracovalo na experimentoch s fairseq - strojový preklad a Spacy trénovanie, štúdium literatúry. + +Úlohy: + +- Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané. +- Porozmýšľať nad témou práce. +- Pokračovať v experimenotch fairseq. +- Čítať knihy. + + + ## Prvý ročník PhD štúdia 29.6. @@ -492,8 +537,6 @@ Stretnutie: 20.2.2020: - - ## Tímový projekt 2019 Projektové stránky: From a67f15374b3e8ed4ed0f32f90a6693ccc2f974c6 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 8 Sep 2022 13:20:48 +0000 Subject: [PATCH 22/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 51b9b612..1383df5f 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -53,6 +53,8 @@ Plán činosti na semester: - [x] Dá sa nadviazať na "spelling correction" výskum a skripty. - [x] Teoretický prínos je väčší. - [x] Trénovanie by bolo jednoduchšie na našom HW. + - Posledné review je z [2020](https://scholar.google.sk/scholar?hl=en&as_sdt=0%2C5&q=grammatical+error+correction+survey&btnG=) + 2. Napísať prehľadový článok. - Prečítať existujúce prehľady na danú tému. Zistitť ako boli napísané, kde boli uverejnené, čo je ich prínos. Je dobré použiť metodiku https://www.prisma-statement.org// From fc184ce27a3ff8f7b739a805552593fd02c4df78 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 8 Sep 2022 13:35:15 +0000 Subject: [PATCH 23/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 1383df5f..2fcb9849 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -82,9 +82,11 @@ Počas prázdnin sa pracovalo na experimentoch s fairseq - strojový preklad a S Úlohy: - Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané. +- Prečítať niekoľko prehľadov (survey) na tému Neural Language Modelling - BERT Type models. Zistiť, kde je priestor na vedecký prínos. +- Na obe témy vyhľadať a prečítať niekoľko článkov. Uložiť záznam do databázy, napísať poznánky ku článku. - Porozmýšľať nad témou práce. -- Pokračovať v experimenotch fairseq. -- Čítať knihy. +- Pokračovať v experimenotch fairseq so strojovým prekladom. Vieme pripraviť experiment na tému "spelling", "grammar" alebo training "roberta small", "bart small" na web korpuse? Toto by sa mohlo publikovať na konferenčnom článku do konca roka. treba vybrať dátovú množinu, metodiku vyhodnoteia, metódu trénovania. +- Čítať knihy - Bishop-Patter Recognition. Yang: Transfer Learning. From 6c20b1143918ae8442a8e2e0130f94a1c1334fd2 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 8 Sep 2022 13:41:34 +0000 Subject: [PATCH 24/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 2fcb9849..47354768 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -83,6 +83,7 @@ Počas prázdnin sa pracovalo na experimentoch s fairseq - strojový preklad a S - Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané. - Prečítať niekoľko prehľadov (survey) na tému Neural Language Modelling - BERT Type models. Zistiť, kde je priestor na vedecký prínos. +- Zistiť čo je to Transfer Learning. https://ieeexplore.ieee.org/abstract/document/9134370 - Na obe témy vyhľadať a prečítať niekoľko článkov. Uložiť záznam do databázy, napísať poznánky ku článku. - Porozmýšľať nad témou práce. - Pokračovať v experimenotch fairseq so strojovým prekladom. Vieme pripraviť experiment na tému "spelling", "grammar" alebo training "roberta small", "bart small" na web korpuse? Toto by sa mohlo publikovať na konferenčnom článku do konca roka. treba vybrať dátovú množinu, metodiku vyhodnoteia, metódu trénovania. From a423ce391a61d3f54ced9045cb1ff7c1b718c09a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Daniel=20Hl=C3=A1dek?= Date: Fri, 23 Sep 2022 08:10:36 +0000 Subject: [PATCH 25/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 5c5e5c97..10c6cacc 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -9,6 +9,22 @@ taxonomy: rok začiatku štúdia: 2019 +# Vedecky projekt 2022/23 + +Ciele na semester: + +- Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany +- Vypracovat vybrany tutorial alebo vzorovy problem, odovzdat vo forme zdrojoveho kodu s komentarom. + +Klucove slova: + +- Jina +- Rasa +- Vektorova Databaza +- Hierarchicke vztahy medzi dokumentami +- Fasttext + + # Bakalárska práca 2022 From d76800b16d3e61b3a0eb297acd5d08b74a41c5fd Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Daniel=20Hl=C3=A1dek?= Date: Fri, 23 Sep 2022 08:18:52 +0000 Subject: [PATCH 26/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 10c6cacc..8b23d758 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -23,7 +23,11 @@ Klucove slova: - Vektorova Databaza - Hierarchicke vztahy medzi dokumentami - Fasttext - +- https://aclanthology.org/2020.emnlp-main.550/ +- Dense Passage Retrieval for Open-Domain Question Answering. +- Urobit demo vyhladavanie v slovenskej wikipedii. +- LABSE, LASER embedding model +- multi language IR # Bakalárska práca 2022 From c5b35646f733bdfe77549f6fa9d5ac90ef198281 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Daniel=20Hl=C3=A1dek?= Date: Fri, 23 Sep 2022 08:20:43 +0000 Subject: [PATCH 27/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 8b23d758..0377bd27 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -15,6 +15,7 @@ Ciele na semester: - Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany - Vypracovat vybrany tutorial alebo vzorovy problem, odovzdat vo forme zdrojoveho kodu s komentarom. +- Vyslovit ciele diplomovej prace. Klucove slova: @@ -29,6 +30,11 @@ Klucove slova: - LABSE, LASER embedding model - multi language IR +Ulohy: + +- Precitat si clanok, napiste poznamy +- Navrhnite na co by ste sa chceli sustredit. + # Bakalárska práca 2022 From fbd511101e7ac9e8bbb9d6f2c9cd5b74c34aeaa1 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Wed, 28 Sep 2022 16:22:20 +0200 Subject: [PATCH 28/81] z --- .../2020/jakub_kristian_lukas/README.md | 20 ++++++++++++++++++ pages/students/2020/matej_kobylan/README.md | 21 +++++++++++++++++++ pages/students/2020/matus_suchanic/README.md | 12 +++++++++-- .../students/2020/vladyslav_krupko/README.md | 18 ++++++++++++++++ 4 files changed, 69 insertions(+), 2 deletions(-) create mode 100644 pages/students/2020/jakub_kristian_lukas/README.md create mode 100644 pages/students/2020/matej_kobylan/README.md create mode 100644 pages/students/2020/vladyslav_krupko/README.md diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md new file mode 100644 index 00000000..03836c8c --- /dev/null +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -0,0 +1,20 @@ +--- +title: Jakub Kristián Lukas +published: true +taxonomy: + category: [bp2023] + tag: [hatespeech] + author: Daniel Hladek +--- + +rok začiatku štúdia: 2020 + +# Bakalárska práca 2023 + +Téma: Systém pre rozpoznávanie nenávistnej reči v online diskusiách + +Úloha: + +- Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers. +- Vypracovať webové demo + diff --git a/pages/students/2020/matej_kobylan/README.md b/pages/students/2020/matej_kobylan/README.md new file mode 100644 index 00000000..502527f6 --- /dev/null +++ b/pages/students/2020/matej_kobylan/README.md @@ -0,0 +1,21 @@ +--- +title: Matej Kobyľan +published: true +taxonomy: + category: [bp2023] + tag: [] + author: Daniel Hladek +--- + +rok začiatku štúdia: 2020 + +# Bakalárska práca 2023 + +Systém pre monitoring médií + + +- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí +- Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch. +- Aplikujte neurónovú sieť na klasifikáciu získaných článkov. + + diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index de8171ad..82342dc4 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -2,13 +2,21 @@ title: Matúš Suchanič published: true taxonomy: - category: [vp2022] - tag: [spacy,nlp] + category: [vp2022,bp2023] + tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 +# Bakalárska práca 2023 + +Téma: Vyhľadávanie na slovenskej Wikipédii + + +Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. + + # Vedecký projekt 2022 Extrakcia informácií z webových stránok diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md new file mode 100644 index 00000000..ddd8b974 --- /dev/null +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -0,0 +1,18 @@ +--- +title: Vladyslav Krupko +published: true +taxonomy: + category: [bp2023] + tag: [language model] + author: Daniel Hladek +--- + +rok začiatku štúdia: 2020 + +# Bakalárska práca 2023 + +Generovanie slovenského jazyka pomocou neurónovej siete + +Vytvorte systém, ktorý by vedel generovať odpovede v slovenskom jazyku na základe opísaného problému. + +Na naučenie neurónovej siete použite webové diskusie. From 9e8641e5c979f0f40c374a61c3c3b1330acda3a6 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 28 Sep 2022 16:08:39 +0000 Subject: [PATCH 29/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index f9aebee3..d1804e35 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -17,6 +17,11 @@ Súvisiace stránky: - [Question Answering](/topics/question) - interný projekt - Matej Čarňanský (BERT) + +Pozrieť toto: + +https://paperswithcode.com/task/text-generation?page=3 + ## Diplomový projekt 1 2022 Cieľ: From 0c615320afbfe86d27565a1fe6c28175669e5743 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Wed, 28 Sep 2022 18:13:20 +0200 Subject: [PATCH 30/81] zz --- pages/students/2020/vladyslav_krupko/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index ddd8b974..ae7112e3 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -16,3 +16,8 @@ Generovanie slovenského jazyka pomocou neurónovej siete Vytvorte systém, ktorý by vedel generovať odpovede v slovenskom jazyku na základe opísaného problému. Na naučenie neurónovej siete použite webové diskusie. + +Zvážiť inú tému: + +- Konverzačný agent pre prezentáciu výsledkov spracovnaia prirodzeného jazyka. +- Oprava preklepov v slovenskom jazyku. From 3360fc998735692560d0a7763c5fef7245e5eb1c Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 29 Sep 2022 09:34:37 +0200 Subject: [PATCH 31/81] zz --- .../2020/jakub_kristian_lukas/README.md | 16 +++++++- pages/students/2020/matej_kobylan/README.md | 41 ++++++++++++++++++- pages/students/2020/matus_suchanic/README.md | 8 +++- 3 files changed, 59 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 03836c8c..ceb000d6 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -13,8 +13,20 @@ rok začiatku štúdia: 2020 Téma: Systém pre rozpoznávanie nenávistnej reči v online diskusiách -Úloha: +Súvisí s PhD prácou [Manohar Gowdru Shridhara](students/2021/manohar_gowdru_shridharu) +Návrh na zadanie: + +- Preštudovať teóriu. - Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers. -- Vypracovať webové demo +- Vypracovať webové demo. +Úlohy: + +- Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články. +- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri. +- Vyskúšať a preštudovať tieto modely + - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english + - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection +- Prečítať a napísať poznámky na jednu stranu. + - https://arxiv.org/abs/2004.06465 diff --git a/pages/students/2020/matej_kobylan/README.md b/pages/students/2020/matej_kobylan/README.md index 502527f6..ea8a2e8a 100644 --- a/pages/students/2020/matej_kobylan/README.md +++ b/pages/students/2020/matej_kobylan/README.md @@ -3,7 +3,7 @@ title: Matej Kobyľan published: true taxonomy: category: [bp2023] - tag: [] + tag: [ir] author: Daniel Hladek --- @@ -13,9 +13,46 @@ rok začiatku štúdia: 2020 Systém pre monitoring médií +Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko) + +Návrh na zadanie: - Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí - Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch. -- Aplikujte neurónovú sieť na klasifikáciu získaných článkov. +- Aplikujte neurónovú sieť na klasifikáciu získaných článkov. +Analýza úlohy: +Chceme vytvoriť databázu novinových článkov. + +Pre článok chceme evidovať: + +- zdroj +- autor +- titulok +- text rozdelený na odseky +- odkazy na iné články +- autorská sekcia +- autorské tagy alebo kľúčové slovíčka. +- perex +- dátum vydania. +- pôvodné html + +Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať. + +Ku databáze chceme vytvoriť webové rozhranie. + +V databáze chceme vedieť vyhľadávať. + +Chceme vedieť automaticky zistiť tému článku. + +Chceme automaticky zistiť sumár článku. + +Úlohy: + +- Vypracujte prehľad literatúry na tému "Monitorovanie médií". +- Vyberte vhodnú databázu. + - Postgres, Cassandra. +- Navrhnite schému. +- Modifikujte agenta pre zber textu. +- Implementujte webové rozhranie na prístup k databáze. diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 82342dc4..5fe347b7 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -13,15 +13,19 @@ rok začiatku štúdia: 2020 Téma: Vyhľadávanie na slovenskej Wikipédii - Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. +Práca súvisí s: + +- [DP Michal Stromko](/students/2019/michal_stromko) +- [BP Matej Kobyľan](/students/2020/matej_kobylan) + + # Vedecký projekt 2022 Extrakcia informácií z webových stránok - Finálny cieľ: - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník) From f0b0a292de09ca59a236c1c8ef9a95257df4c714 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 29 Sep 2022 09:57:44 +0200 Subject: [PATCH 32/81] zz --- pages/students/2020/matus_suchanic/README.md | 10 ++++++++++ pages/students/2020/vladyslav_krupko/README.md | 2 +- 2 files changed, 11 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 5fe347b7..ca5604bd 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -20,7 +20,17 @@ Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) - [BP Matej Kobyľan](/students/2020/matej_kobylan) +Nový návrh: +- Implementujte systém na kategorizáciu slovenských novinových článkov. + +Úlohy: + +- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. +- Napíšte na pol strany čo ste sa dozvedeli. +- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok vyššie. +- Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. +- Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. # Vedecký projekt 2022 diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index ae7112e3..8e67300e 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -19,5 +19,5 @@ Na naučenie neurónovej siete použite webové diskusie. Zvážiť inú tému: -- Konverzačný agent pre prezentáciu výsledkov spracovnaia prirodzeného jazyka. +- Konverzačný agent pre prezentáciu výsledkov spracovnania prirodzeného jazyka. - Oprava preklepov v slovenskom jazyku. From 634ca5ed66a5818562f6665e8aa61a98c5be605a Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 09:27:26 +0000 Subject: [PATCH 33/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- pages/students/2020/jakub_kristian_lukas/README.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index ceb000d6..3b4f716c 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -21,10 +21,21 @@ Návrh na zadanie: - Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers. - Vypracovať webové demo. + + + +Stretnutie 29.9. + +Stav: +- Oboznamili sme sa s projektom. + Úlohy: - Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články. -- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri. +- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri idoc. + +Zásobník úloh: + - Vyskúšať a preštudovať tieto modely - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection From e5049bf7458ba84a08509068208e7cfc68f2f7bb Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 09:29:56 +0000 Subject: [PATCH 34/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- pages/students/2020/jakub_kristian_lukas/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 3b4f716c..64b96662 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -33,6 +33,10 @@ Stav: - Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články. - Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri idoc. + - Nainštalovať Anaconda + - Nainštalovať Pytorch + - nainštalujete transformers. + - prejdide si tutoriál Zásobník úloh: From b0ab648a845c51dccf9fb6f95cbdc83b016a8c96 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 11:57:55 +0000 Subject: [PATCH 35/81] Update 'pages/students/2020/vladyslav_krupko/README.md' --- pages/students/2020/vladyslav_krupko/README.md | 15 ++++++++++++++- 1 file changed, 14 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index 8e67300e..a994082e 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -20,4 +20,17 @@ Na naučenie neurónovej siete použite webové diskusie. Zvážiť inú tému: - Konverzačný agent pre prezentáciu výsledkov spracovnania prirodzeného jazyka. -- Oprava preklepov v slovenskom jazyku. + +Stretnutie 29.9.2022 + +Téma: Oprava preklepov v slovenskom jazyku. + +Cieľ: + +- Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód. +- Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete. +- Naprogramovať webovú demo aplikáciu. + +Úlohy + + From 5e391d80345333452e58dffd3c706cb63708c201 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 12:15:20 +0000 Subject: [PATCH 36/81] Update 'pages/students/2020/vladyslav_krupko/README.md' --- pages/students/2020/vladyslav_krupko/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index a994082e..14ca21c7 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -31,6 +31,14 @@ Cieľ: - Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete. - Naprogramovať webovú demo aplikáciu. -Úlohy +Úlohy: + +- Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany. +- Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra. +- Nainštalujte si systém Anaconda. +- Nainštalujte si knižnicu Pytorch +- Nainštalujte si systém Fairseq + + From 56aab9cd6019173895b77a68f5c25c29abc13367 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 12:19:45 +0000 Subject: [PATCH 37/81] Update 'pages/students/2020/vladyslav_krupko/README.md' --- pages/students/2020/vladyslav_krupko/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index 14ca21c7..85dfa2a3 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -38,6 +38,13 @@ Cieľ: - Nainštalujte si systém Anaconda. - Nainštalujte si knižnicu Pytorch - Nainštalujte si systém Fairseq +- Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html + + +Zásobník úloh: + +- Vybrať dáta a urobiť experiment. +- naprogramovať demo. From 791de5d962be704c5fbdfa60fb0f45d84b8d0333 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 29 Sep 2022 12:22:54 +0000 Subject: [PATCH 38/81] Update 'pages/students/2020/vladyslav_krupko/README.md' --- pages/students/2020/vladyslav_krupko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index 85dfa2a3..82d2e5f8 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -34,6 +34,7 @@ Cieľ: Úlohy: - Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany. +- Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration. - Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra. - Nainštalujte si systém Anaconda. - Nainštalujte si knižnicu Pytorch From a4b526f10bd78bb5c99f2940ea4a7cf572f2d93f Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 29 Sep 2022 14:30:28 +0200 Subject: [PATCH 39/81] zz --- pages/students/2016/maros_harahus/README.md | 4 +++- .../students/2020/vladyslav_krupko/README.md | 19 ++++++------------- 2 files changed, 9 insertions(+), 14 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 47354768..234799c5 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -3,7 +3,7 @@ title: Maroš Harahus published: true taxonomy: category: [dp2021,bp2019] - tag: [spacy,nlp] + tag: [spelling,spacy,nlp] author: Daniel Hladek --- # Maroš Harahus @@ -24,6 +24,8 @@ Ciele: - Napísať dizertačnú prácu - Publikovať 2 články triedy Q2-Q3 +Súvisiaca BP [Vladyslav Krupko](/students/2020/vladyslav_krupko) + ## Druhý rok doktorandského štúdia diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index 82d2e5f8..5deded5d 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -3,7 +3,7 @@ title: Vladyslav Krupko published: true taxonomy: category: [bp2023] - tag: [language model] + tag: [spelling] author: Daniel Hladek --- @@ -11,26 +11,19 @@ rok začiatku štúdia: 2020 # Bakalárska práca 2023 -Generovanie slovenského jazyka pomocou neurónovej siete - -Vytvorte systém, ktorý by vedel generovať odpovede v slovenskom jazyku na základe opísaného problému. - -Na naučenie neurónovej siete použite webové diskusie. - -Zvážiť inú tému: - -- Konverzačný agent pre prezentáciu výsledkov spracovnania prirodzeného jazyka. - -Stretnutie 29.9.2022 - Téma: Oprava preklepov v slovenskom jazyku. +Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus). + Cieľ: - Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód. - Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete. - Naprogramovať webovú demo aplikáciu. +Stretnutie 29.9.2022 + + Úlohy: - Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany. From 3bfbe0d90251695534c805b5233bf369f370642f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 30 Sep 2022 09:44:09 +0000 Subject: [PATCH 40/81] Update 'pages/students/2020/matej_kobylan/README.md' --- pages/students/2020/matej_kobylan/README.md | 23 +++++++++++++++++++-- 1 file changed, 21 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/matej_kobylan/README.md b/pages/students/2020/matej_kobylan/README.md index ea8a2e8a..05b1c91f 100644 --- a/pages/students/2020/matej_kobylan/README.md +++ b/pages/students/2020/matej_kobylan/README.md @@ -48,11 +48,30 @@ Chceme vedieť automaticky zistiť tému článku. Chceme automaticky zistiť sumár článku. -Úlohy: -- Vypracujte prehľad literatúry na tému "Monitorovanie médií". - Vyberte vhodnú databázu. - Postgres, Cassandra. - Navrhnite schému. - Modifikujte agenta pre zber textu. - Implementujte webové rozhranie na prístup k databáze. + + +Stretnutie 30.9.2022 + +Úlohy: + +- Prečítajte si záverečné práce J. Holp, M. Stromko. +- Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte čláonky ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov. +- Nainštalujte si systém Anaconda. +- Prejdite si Python tutoriál. +- Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu. +- Pomocou systému Docker si nainštalujte Elasticsdaerch 8.4 +- Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html + +Zásobník úloh: + +- Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky. +- Oboznámte sa s kódom agenta websucker. +- Zistite, ako funguje knižnica BeautifulSoup. +- Urobte si GIT repozitár, kde budeme dávať kódy. + From 41b08e6dae7baec698482dd6ae9bf033aa8d5c84 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 30 Sep 2022 10:55:36 +0000 Subject: [PATCH 41/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 20 ++++++++++++++------ 1 file changed, 14 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index ca5604bd..ad9ba02f 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -13,23 +13,31 @@ rok začiatku štúdia: 2020 Téma: Vyhľadávanie na slovenskej Wikipédii -Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. +Úloha: +- Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. +- alebo Implementujte systém na kategorizáciu slovenských novinových článkov. Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) - [BP Matej Kobyľan](/students/2020/matej_kobylan) -Nový návrh: +Stretnutie 30.9.2022: -- Implementujte systém na kategorizáciu slovenských novinových článkov. +Stav: + +- Je nainštalovaný Anaconda a HF transformers. Úlohy: -- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. -- Napíšte na pol strany čo ste sa dozvedeli. -- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok vyššie. +- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. +- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. + - Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. + + +Zásobník úloh: + - Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. # Vedecký projekt 2022 From d1c1cf9a889577aeb4f0cd82a69c4ad13b250714 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 30 Sep 2022 11:03:44 +0000 Subject: [PATCH 42/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index ad9ba02f..151995ee 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -30,7 +30,9 @@ Stav: Úlohy: -- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. +- Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. +- Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. +- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. - Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. - Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. From d58a0976f9c544bc949cf1f89c303f214f0783fb Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sun, 2 Oct 2022 12:13:27 +0000 Subject: [PATCH 43/81] Add 'pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md' --- .../michal_stromko/vp2023/articles/DensePassageRetrieval.md | 3 +++ 1 file changed, 3 insertions(+) create mode 100644 pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md diff --git a/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md new file mode 100644 index 00000000..33a4ef50 --- /dev/null +++ b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md @@ -0,0 +1,3 @@ +# Dense Passage Retrieval for Open-Domain Question Answering +## Clanok č.1 + From 9fe8dd922116d50e327f64cb7aaeb4bff6a09b65 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sun, 2 Oct 2022 12:37:51 +0000 Subject: [PATCH 44/81] Update 'pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md' --- .../2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md index 33a4ef50..20a49ffb 100644 --- a/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md +++ b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md @@ -1,3 +1,4 @@ # Dense Passage Retrieval for Open-Domain Question Answering ## Clanok č.1 +### Dense Passage Retriever (DPR) From 8b0de1654221d8aee347e5fb8e59369d148359e7 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 5 Oct 2022 12:10:42 +0000 Subject: [PATCH 45/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 34ffcc1d..fddbdd0b 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -72,6 +72,22 @@ Resources: - [Resources and benchmark corpora for hate speech detection: a systematic review] (https://link.springer.com/article/10.1007/s10579-020-09502-8) +Meeting 5.10. + +Status: + +Studied python and ML: + - Basics to Advanced python is completed + - word2vec and word embedding examples are tried + - Basic tools (tensorflow) on Machine Learning and task are completed + - learning on ML and Deep learning libraries and fairseq RNN, SVM BERT code samples + +Building the datasets memes based on Dravidian languages: + - Collected base papers on Hate speech Multilanguage troll and not troll memes with low resource languages + +Currected the survey paper and shared for review. + + 14.7: Status: From 43ddc7a199644f248363a69b02f944c4b5c49e1b Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 5 Oct 2022 12:22:31 +0000 Subject: [PATCH 46/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- pages/students/2021/manohar_gowdru_shridharu/README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index fddbdd0b..80d063e8 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -87,6 +87,16 @@ Building the datasets memes based on Dravidian languages: Currected the survey paper and shared for review. +Worked on a baseline HS experiment: + +https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit + + +Tasks: + +- Publish a paper about the dataset on the SAMI 2023 Conference. +- Publish a paper in school journal - ask about deadlilne. + 14.7: From f343ab27fcac4d057928c2b593e239d81601f472 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 5 Oct 2022 12:44:00 +0000 Subject: [PATCH 47/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 24 +++++++++++++++++++ 1 file changed, 24 insertions(+) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 80d063e8..6c974ad5 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -37,6 +37,30 @@ Goals: - Publish 1 regular conference paper. - Prepare a demo for hate speech detection. +Meeting 5.10. + +Status: + +Studied python and ML: + - Basics to Advanced python is completed + - word2vec and word embedding examples are tried + - Basic tools (tensorflow) on Machine Learning and task are completed + - learning on ML and Deep learning libraries and fairseq RNN, SVM BERT code samples + +Building the datasets memes based on Dravidian languages: + - Collected base papers on Hate speech Multilanguage troll and not troll memes with low resource languages + +Currected the survey paper and shared for review. + +Worked on the baseline HS expriment. + +Tasks: + +- Publish a paper on SAMI 2023 +- publish a paper on a shool conference, ask for deadline. +- continue to work on the baseline HS experiment. Evaluate accuracy for the classifiers. This is a possible simple publiblication. + + Meeting 6.9.2022 Status: From a3b6cbdc35cdf3cfe495a7195f34d2095dc0cde8 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 5 Oct 2022 12:49:08 +0000 Subject: [PATCH 48/81] Update 'pages/students/2021/manohar_gowdru_shridharu/README.md' --- .../2021/manohar_gowdru_shridharu/README.md | 13 +++++++++++-- 1 file changed, 11 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/manohar_gowdru_shridharu/README.md b/pages/students/2021/manohar_gowdru_shridharu/README.md index 6c974ad5..86749fe0 100644 --- a/pages/students/2021/manohar_gowdru_shridharu/README.md +++ b/pages/students/2021/manohar_gowdru_shridharu/README.md @@ -53,12 +53,21 @@ Building the datasets memes based on Dravidian languages: Currected the survey paper and shared for review. Worked on the baseline HS expriment. +- https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit Tasks: - Publish a paper on SAMI 2023 -- publish a paper on a shool conference, ask for deadline. -- continue to work on the baseline HS experiment. Evaluate accuracy for the classifiers. This is a possible simple publiblication. +- publish a paper on a school conference, ask for deadline. + +Possible paper topics: + +- contine to work on the baseline HS experiment. Evaluate accuracy for the classifiers. This is a possible simple publication. +- continue to work on the horsehead experiment. This is another possible paper. +- continue work on the dravidian dataset. this in another possible papers. +- continue to work on the survey paper. This is another possible Q3 paper. + + Meeting 6.9.2022 From 634b32e6f6e19b4fe3537157b29500b025b39241 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 6 Oct 2022 14:02:50 +0200 Subject: [PATCH 49/81] zz --- pages/students/2018/david_omasta/README.md | 64 ++++++++++++++++++++++ 1 file changed, 64 insertions(+) create mode 100644 pages/students/2018/david_omasta/README.md diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md new file mode 100644 index 00000000..ce2f0303 --- /dev/null +++ b/pages/students/2018/david_omasta/README.md @@ -0,0 +1,64 @@ +--- +title: Dávid Omasta +published: true +taxonomy: + category: [dp2023] + tag: [lm] + author: Daniel Hladek +--- + +Začiatok štúdia: 2018 + +Súvisiace stránky: + +- [Question Answering](/topics/question) - interný projekt +- Jozef Olekšák +- Matej Čarňanský (BERT) +- Ondrej Megela + +# Diplomová práca 2023 + +Téma: Dotrénovanie slovenského generatívneho jazykového modelu. + +Vedúci: Ján Staš + +Návrh na zadanie DP: + +- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. +- Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články. +- Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom. +- Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu. +- Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia. + +Ciele na zimný semester: + +Praktické: +- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers +- Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu. +- Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme. +- Vytvorte demonštračnú aplikáciu. + +Teoretické: + +- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). +- Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). + +Stretnutie 6.10. + +Stav: + +- Obznámený s Google Colab. + +Úlohy: + +- Prečítajte si ako funguje neurónová sieť typu Transformer a písomne to vysvetlite. Uveďte odkazy na odborné články. +- Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jayzkových modeloch - T5, GPT, BART. +- Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. +- Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. + +Zásobník úloh: + +- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články. +- Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b +- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api +- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty. From f42be61cb7d4d14cfd34e224c5dac1827689c11c Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 6 Oct 2022 14:04:58 +0200 Subject: [PATCH 50/81] zz --- pages/home/default.md | 10 +++++++--- 1 file changed, 7 insertions(+), 3 deletions(-) diff --git a/pages/home/default.md b/pages/home/default.md index d79258f0..eff690e1 100644 --- a/pages/home/default.md +++ b/pages/home/default.md @@ -22,9 +22,8 @@ Wiki stánka pre spoluprácu na záverečných prácach. ## Predmety -- [Diplomové práce 2022](/categories/dp2022) -- [Bakalárske práce 2022](/categories/bp2022) -- Diplomový projekt 2022-Diplomová práca 2023 +- [Diplomové práce 2023](/categories/dp2023) +- [Bakalárske práce 2023](/categories/bp2023) ## Vedecké projekty @@ -46,6 +45,11 @@ Wiki stánka pre spoluprácu na záverečných prácach. ## Uzavreté predmety +## 2022 + +- [Diplomové práce 2022](/categories/dp2022) +- [Bakalárske práce 2022](/categories/bp2022) + ## 2021 - [Bakalárske práce 2021](/categories/bp2021) From d71e1dd711d2e87921d1026b57c77ac57a77a8d5 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 06:46:31 +0000 Subject: [PATCH 51/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- pages/students/2020/jakub_kristian_lukas/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 64b96662..2b69220a 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -45,3 +45,4 @@ Zásobník úloh: - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection - Prečítať a napísať poznámky na jednu stranu. - https://arxiv.org/abs/2004.06465 +- Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit From a067accf1f952586fbc8d6359f99ad3c8ccc506a Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 06:51:12 +0000 Subject: [PATCH 52/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- pages/students/2020/jakub_kristian_lukas/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 2b69220a..89e5976e 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -22,6 +22,13 @@ Návrh na zadanie: - Vypracovať webové demo. +Stretnutie 7.10. + +Stav: + +- Nainštalované prostredie Anadonda, HF, Pytorch +- Zdieľaný priečinok [google drive](https://drive.google.com/drive/folders/1voblyxpAwsjNWBSFB-8F_heQCb5cGakJ?usp=sharing) +- Vypracovaný text na 2 strany o BERT modeli. Stretnutie 29.9. From 3b73f2ec6643493fda42dbd3dbed5a2816a49a11 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 07:00:16 +0000 Subject: [PATCH 53/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- .../2020/jakub_kristian_lukas/README.md | 29 +++++++++++-------- 1 file changed, 17 insertions(+), 12 deletions(-) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 89e5976e..203b1671 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -31,6 +31,19 @@ Stav: - Vypracovaný text na 2 strany o BERT modeli. +Úlohy: + +- Prečítať a napísať poznámky na jednu stranu. Pozrite si aj súvisiace články, + - https://arxiv.org/abs/2004.06465 +- Prejdite si knihu Dive into Python 3. +- Prejdite si HF Tutoriál. +- Vyskúšať a preštudovať tieto modely + - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english + - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection +- Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit + + + Stretnutie 29.9. Stav: @@ -40,16 +53,8 @@ Stav: - Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články. - Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri idoc. - - Nainštalovať Anaconda - - Nainštalovať Pytorch - - nainštalujete transformers. - - prejdide si tutoriál + - [x] Nainštalovať Anaconda + - [x] Nainštalovať Pytorch + - [x] nainštalujete transformers. + - [ ] prejdide si tutoriál -Zásobník úloh: - -- Vyskúšať a preštudovať tieto modely - - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english - - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection -- Prečítať a napísať poznámky na jednu stranu. - - https://arxiv.org/abs/2004.06465 -- Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit From cf1f45d1f1747bbd049d23776b4b2a5cc2577505 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 07:51:41 +0000 Subject: [PATCH 54/81] Update 'pages/students/2018/david_omasta/README.md' --- pages/students/2018/david_omasta/README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md index ce2f0303..a9fdabce 100644 --- a/pages/students/2018/david_omasta/README.md +++ b/pages/students/2018/david_omasta/README.md @@ -43,16 +43,16 @@ Teoretické: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). -Stretnutie 6.10. +Stretnutie 7.10. Stav: -- Obznámený s Google Colab. +- Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification, Úlohy: - Prečítajte si ako funguje neurónová sieť typu Transformer a písomne to vysvetlite. Uveďte odkazy na odborné články. -- Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jayzkových modeloch - T5, GPT, BART. +- Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART. - Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. - Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. From 3d042fedb543192e92474f020db45a94db607df9 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 08:05:42 +0000 Subject: [PATCH 55/81] Update 'pages/students/2018/david_omasta/README.md' --- pages/students/2018/david_omasta/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md index a9fdabce..dd91bf03 100644 --- a/pages/students/2018/david_omasta/README.md +++ b/pages/students/2018/david_omasta/README.md @@ -62,3 +62,4 @@ Zásobník úloh: - Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty. +- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký) From d26ba7a26076678d495fb9b2aa2e587ef1823d61 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Oct 2022 08:27:53 +0000 Subject: [PATCH 56/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 26 +++++++++++++++++++++ 1 file changed, 26 insertions(+) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index d1804e35..558c9974 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -22,6 +22,32 @@ Pozrieť toto: https://paperswithcode.com/task/text-generation?page=3 +# Diplomová práca 2023 + +Súvisiace práce: + +- Dávid Omasta + +Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí. + +Stav: + +- PatilSuraj zatiaľ nefunguje. Funguje iba na T5 a Bart vlastné anglické, nefunguje na gpt-j ano na mt5. Stále je tam možnosť vyskúšať vlastný slovenský BART. + +Úlohy: + +- Vyskúšať slovenský GPT model v úlohe few-shot learning. Inšpirácia https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api. Použite niektorý prístup z patilsuraj. +- Vyoracujte písomný prehľad generatívnych jazykových modelov. +- Vypracujte písomný prehľad metód generovania otázok pomocou jazykového modelu. Nezabudnite na odkazy na odbornú literatúru. + + +Zásobník úloh: + +- Dotrénovať slovenský GPT model pomocou HF skriptu run_clm.py +- Zistiť aký veľký model nám funguje. +- Vybrať vhodný server na dorénovanie. Koľko GRAM potrebujeme? +- Záložná možnosť - písať pre anglický jazyk. + ## Diplomový projekt 1 2022 Cieľ: From caffd2ffd004958751e3554e52a1aab5512db09c Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 12 Oct 2022 08:00:48 +0000 Subject: [PATCH 57/81] Update 'pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md' --- .../vp2023/articles/DensePassageRetrieval.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md index 20a49ffb..d7d90fd8 100644 --- a/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md +++ b/pages/students/2019/michal_stromko/vp2023/articles/DensePassageRetrieval.md @@ -2,3 +2,11 @@ ## Clanok č.1 ### Dense Passage Retriever (DPR) +- výskum tejto práce je zameraný na zlepšenie vyhľadávania v QA. +- pre používanie DPR je dôležité používať správny Encoder, ktorý mapuje text na dimenzionálne vektory skutočnej hodnoty a vytvára index __M__, ktorý sa používa pre vyhľadávanie +- pri behu DPR sa aplikuje iný Enkóder, ktorý mapuje vstupnú otázku na d-rozmerný vektor, a vyhľadáva podľa toho ktorý vektor je najbližšie k vektoru otázky. Podobnosť medzi otázkou a pasážou definujeme pomocou bodového súčinu ich vektorov. +- doležitou súčasťou takéhoto vyhľadávania je správne vypočítanie kosínusovej vzdialenosti. +- trénovanie Encodera sa vykonáva z dôvodu lepšieho vypočítania metrických údajov. +- cieľ trénovania je vytvorenie dvoch vektorov, tak aby tieto dve relevantné dvojice otázok a odpovedí mali najmenšiu vzdialenosť medzi sebou. +__Pozitívne a negatívne pasáže__ +- pri vyhľadávaní sa často stretávame s pozitívnymi výsledkami ktoré sú k dispozícii explicitne, zatiaľ čo negatívne výsledky je potrebné vybrať z veľkého súboru. From 31b2756ea4bbf7575af9442f9966eaf6f42ccd94 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 14 Oct 2022 07:46:58 +0000 Subject: [PATCH 58/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 21 ++++++++++++++++++-- 1 file changed, 19 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 0377bd27..1bb6a93b 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -11,18 +11,26 @@ rok začiatku štúdia: 2019 # Vedecky projekt 2022/23 +Súvisiace práce: + +- Matej Kobyľan +- Suchanič + Ciele na semester: - Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany -- Vypracovat vybrany tutorial alebo vzorovy problem, odovzdat vo forme zdrojoveho kodu s komentarom. +- Vypracovat demonštračné vyhľadávanie v slovenskej wikipédii. - Vyslovit ciele diplomovej prace. + Klucove slova: - Jina - Rasa - Vektorova Databaza - Hierarchicke vztahy medzi dokumentami +- Faiss +- Elasticsearch-Opensearch - Fasttext - https://aclanthology.org/2020.emnlp-main.550/ - Dense Passage Retrieval for Open-Domain Question Answering. @@ -30,11 +38,20 @@ Klucove slova: - LABSE, LASER embedding model - multi language IR + Ulohy: -- Precitat si clanok, napiste poznamy +- Precitat si clanok, napiste poznamky - Navrhnite na co by ste sa chceli sustredit. +Stretnutie 14.10.2022 + +Stav: + +- Naštudovaný článok Kharpukin Dense Passage Retrieval +- Naštudované Jina-DocArray. + + # Bakalárska práca 2022 From 1677cfc7bd2fab8c93565e3c6e7bfcdcbcbdb1c2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 14 Oct 2022 07:55:05 +0000 Subject: [PATCH 59/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 1bb6a93b..0b3cecca 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -18,8 +18,11 @@ Súvisiace práce: Ciele na semester: -- Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany +- Zistiť ktorá knižnica je dobrá a ktorý model je dobrý na slovenské vyhľadávnaie vo wikipédii pre QA. + - Možnosti pre knižnice sú: JinaDocArray, Elasticsearch-Opensearch, Faiss, Haystack + - Možnosti pre modely sú: DPR, LABSE, LASER, Iný Sentence Transformer, WordEmbedding. - Vypracovat demonštračné vyhľadávanie v slovenskej wikipédii. +- Vypracovat spravu o precitanych clankoch spolu s odkazmi, cca 4 strany - Vyslovit ciele diplomovej prace. From 8b31786a995eba563dedda03301ca806dc59b171 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 14 Oct 2022 08:00:39 +0000 Subject: [PATCH 60/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 0b3cecca..d0f18c1d 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -53,6 +53,16 @@ Stav: - Naštudovaný článok Kharpukin Dense Passage Retrieval - Naštudované Jina-DocArray. +- Je k dispozícci ES na školskom servri - aj tak je lepšie pracovať na vlastnej inštancii. + +Úlohy: + +- Skúste zaindexovať slovenské dokumenty pomocou JinaDoc Array. +- Skúste ich vyhľadávať, Vyberte vhdoný existujúci model, napr. LABSE. + +Zásobník úloh: + +- skúste zaindexovať slovenské dokumenty pomocou Elasticsearch. # Bakalárska práca 2022 From 20b3a8c24f446d910ab2c60a94cee832af668436 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 14 Oct 2022 08:11:19 +0000 Subject: [PATCH 61/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 9 ++++++--- 1 file changed, 6 insertions(+), 3 deletions(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index d0f18c1d..74127c97 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -57,12 +57,15 @@ Stav: Úlohy: -- Skúste zaindexovať slovenské dokumenty pomocou JinaDoc Array. -- Skúste ich vyhľadávať, Vyberte vhdoný existujúci model, napr. LABSE. +- Dodaný skript na indexovanie SCNC do ES. Upravte skript na Jina DocArray +- Skúste zaindexovať slovenské dokumenty pomocou JinaDoc Array. Vyberte vhdoný existujúci model, napr. LABSE. +- Skúste ich vyhľadávať. +- Nájdite si článok o vyhľadávaní pomocou LABSE. Napíšte si z neho poznámky. Ako prebieha vyhľadávanie pomocou LABSE? Zásobník úloh: -- skúste zaindexovať slovenské dokumenty pomocou Elasticsearch. +- skúste zaindexovať slovenské dokumenty pomocou Elasticsearch. +- Zistite ako funguje vektorové vyhľadávanie v ES. # Bakalárska práca 2022 From 6a3a90cfc80f6add13ee78f89d0813b5e58670d7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 14 Oct 2022 09:08:07 +0000 Subject: [PATCH 62/81] Update 'pages/students/2018/david_omasta/README.md' --- pages/students/2018/david_omasta/README.md | 20 ++++++++++++++++---- 1 file changed, 16 insertions(+), 4 deletions(-) diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md index dd91bf03..22749fe2 100644 --- a/pages/students/2018/david_omasta/README.md +++ b/pages/students/2018/david_omasta/README.md @@ -43,6 +43,18 @@ Teoretické: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). + +Stretnutie 14.10. + +Stav: + +- Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA. +- Prečítané články. + +Úlohy: + +- Pokračovať. + Stretnutie 7.10. Stav: @@ -51,10 +63,10 @@ Stav: Úlohy: -- Prečítajte si ako funguje neurónová sieť typu Transformer a písomne to vysvetlite. Uveďte odkazy na odborné články. -- Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART. -- Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. -- Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. +- [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články. +- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART. +- [-] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. +- [ ] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. Zásobník úloh: From 758fa7b60910bde301b1c7e0997aae1cb1e1a630 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Oct 2022 07:50:55 +0000 Subject: [PATCH 63/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 234799c5..3312fce0 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -75,6 +75,20 @@ Plán činosti na semester: - Predbežné experimenty zverejniť v krátkom článku. - Prediskutovať spôsob financovania. +Stretnutie 27.10. + +Stav: + +- Prečítaných a spoznámkovaných cca 4O článkov na tému "Grammar Error Correction". +- Experimenty strojový preklad s Fairseq. Z toho vznikol článok SAMI. +- Poznámky o Transfer Leaarning. Preštudované GPT3. +- Sú rozpracované ďalšie modely pre strojový preklad. Česko-slovenský. +- https://github.com/KaushalBajaj11/GEC--Grammatical-Error-Correction +- https://github.com/LukasStankevicius/Towards-Lithuanian-Grammatical-Error-Correction +- https://github.com/yuantiku/fairseq-gec + + + Stretnutie 9.9.2022 Stav: From 09c19da0b44ef81bb014609a170725906b798d7d Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Oct 2022 07:55:43 +0000 Subject: [PATCH 64/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 3312fce0..ccf156d1 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -87,7 +87,14 @@ Stav: - https://github.com/LukasStankevicius/Towards-Lithuanian-Grammatical-Error-Correction - https://github.com/yuantiku/fairseq-gec +Úlohy: +- Rozbehať fairseq GEC a porozmýšľať ako by a to dalo zlepšiť. + + +Nápady: + +- Smerovať to na inú generatívnu úlohu podobnú strojovému prekladu. Napríklad "Question generation". Stretnutie 9.9.2022 From d6ccd3365956b7af95297d4006699df0303dc393 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Oct 2022 08:03:49 +0000 Subject: [PATCH 65/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 15 ++++++++------- 1 file changed, 8 insertions(+), 7 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index ccf156d1..3c6296cd 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -90,11 +90,12 @@ Stav: Úlohy: - Rozbehať fairseq GEC a porozmýšľať ako by a to dalo zlepšiť. - +- Pozrieť si prehľad https://scholar.google.sk/scholar?hl=en&as_sdt=0%2C5&q=question+generation&btnG=&oq=question+ge a napísať niekoľko poznámok. Vedeli by sme nájsť prínos? Nápady: - Smerovať to na inú generatívnu úlohu podobnú strojovému prekladu. Napríklad "Question generation". +- question generation by sa dalo použiť na zlepšenie QA-IR systémov. Stretnutie 9.9.2022 @@ -104,13 +105,13 @@ Počas prázdnin sa pracovalo na experimentoch s fairseq - strojový preklad a S Úlohy: -- Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané. -- Prečítať niekoľko prehľadov (survey) na tému Neural Language Modelling - BERT Type models. Zistiť, kde je priestor na vedecký prínos. -- Zistiť čo je to Transfer Learning. https://ieeexplore.ieee.org/abstract/document/9134370 +- [x] Prečítať niekoľko prehľadov na tému Grammar Correction, zistiť ako sú napísané a čo je v nich napísané. +- [x] Prečítať niekoľko prehľadov (survey) na tému Neural Language Modelling - BERT Type models. Zistiť, kde je priestor na vedecký prínos. +- [x] Zistiť čo je to Transfer Learning. https://ieeexplore.ieee.org/abstract/document/9134370 - Na obe témy vyhľadať a prečítať niekoľko článkov. Uložiť záznam do databázy, napísať poznánky ku článku. -- Porozmýšľať nad témou práce. -- Pokračovať v experimenotch fairseq so strojovým prekladom. Vieme pripraviť experiment na tému "spelling", "grammar" alebo training "roberta small", "bart small" na web korpuse? Toto by sa mohlo publikovať na konferenčnom článku do konca roka. treba vybrať dátovú množinu, metodiku vyhodnoteia, metódu trénovania. -- Čítať knihy - Bishop-Patter Recognition. Yang: Transfer Learning. +- [ ] Porozmýšľať nad témou práce. +- [x] Pokračovať v experimenotch fairseq so strojovým prekladom. Vieme pripraviť experiment na tému "spelling", "grammar" alebo training "roberta small", "bart small" na web korpuse? Toto by sa mohlo publikovať na konferenčnom článku do konca roka. treba vybrať dátovú množinu, metodiku vyhodnoteia, metódu trénovania. +- [-] Čítať knihy - Bishop-Patter Recognition. Yang: Transfer Learning. From de34985d85be7510e91e8a644844a578c395795e Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Oct 2022 08:16:22 +0000 Subject: [PATCH 66/81] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 3c6296cd..d399bb77 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -96,6 +96,7 @@ Nápady: - Smerovať to na inú generatívnu úlohu podobnú strojovému prekladu. Napríklad "Question generation". - question generation by sa dalo použiť na zlepšenie QA-IR systémov. +- Možno "multilingual question generation"? Stretnutie 9.9.2022 From ae824caeb57c86b3d534d388579989b4598b0e8a Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 08:40:02 +0000 Subject: [PATCH 67/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 32 ++++++++++++++++----- 1 file changed, 25 insertions(+), 7 deletions(-) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 558c9974..852f72d7 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -30,23 +30,41 @@ Súvisiace práce: Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí. + +Stretnutie 28.10 + +Stav: +- Vyskúšaný slovenský GPT model v rôznych veľkostiach. Generovanie funguje. Obbmedzene funguje aj zero shot sentiment classification. Zagtiaľ nefuguje pre generovanie otázok. + +Úlohy: + +- Pokračovať v Zero Shot: Vymeniť Sentence za Veta. Pozrieť Separátor v slovníku. +- Skúsiť rozbehať run_clm pre slovenský GPT model pre úlohu generovania otázok. Poskytnutý prístup do repozitára bert-train. + +Zásobník úloh: + +- Možno by sa dalo formulovať úlohu ako klasický machne translation a použiť niekotrý existujúci setup pre preklad bez predtrénovania. Existujú skripty pre fairseq. +- Možno bude fungovať nejaký multilinguálny generatívny model. + +Stretnutie 7.10: + Stav: - PatilSuraj zatiaľ nefunguje. Funguje iba na T5 a Bart vlastné anglické, nefunguje na gpt-j ano na mt5. Stále je tam možnosť vyskúšať vlastný slovenský BART. Úlohy: -- Vyskúšať slovenský GPT model v úlohe few-shot learning. Inšpirácia https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api. Použite niektorý prístup z patilsuraj. -- Vyoracujte písomný prehľad generatívnych jazykových modelov. -- Vypracujte písomný prehľad metód generovania otázok pomocou jazykového modelu. Nezabudnite na odkazy na odbornú literatúru. +- [x] Vyskúšať slovenský GPT model v úlohe few-shot learning. Inšpirácia https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api. Použite niektorý prístup z patilsuraj. +- [ ] Vyoracujte písomný prehľad generatívnych jazykových modelov. +- [ ] Vypracujte písomný prehľad metód generovania otázok pomocou jazykového modelu. Nezabudnite na odkazy na odbornú literatúru. Zásobník úloh: -- Dotrénovať slovenský GPT model pomocou HF skriptu run_clm.py -- Zistiť aký veľký model nám funguje. -- Vybrať vhodný server na dorénovanie. Koľko GRAM potrebujeme? -- Záložná možnosť - písať pre anglický jazyk. +- [ ] Dotrénovať slovenský GPT model pomocou HF skriptu run_clm.py +- [ ] Zistiť aký veľký model nám funguje. +- [ ] Vybrať vhodný server na dorénovanie. Koľko GRAM potrebujeme? +- [ ] Záložná možnosť - písať pre anglický jazyk. ## Diplomový projekt 1 2022 From cd7cdf0d7f562fa3cd06656d0ff2d139580cd8d4 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 08:41:30 +0000 Subject: [PATCH 68/81] Update 'pages/students/2018/ondrej_megela/README.md' --- pages/students/2018/ondrej_megela/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2018/ondrej_megela/README.md b/pages/students/2018/ondrej_megela/README.md index 852f72d7..d483644b 100644 --- a/pages/students/2018/ondrej_megela/README.md +++ b/pages/students/2018/ondrej_megela/README.md @@ -39,7 +39,7 @@ Stav: Úlohy: - Pokračovať v Zero Shot: Vymeniť Sentence za Veta. Pozrieť Separátor v slovníku. -- Skúsiť rozbehať run_clm pre slovenský GPT model pre úlohu generovania otázok. Poskytnutý prístup do repozitára bert-train. +- Skúsiť rozbehať run_clm pre slovenský GPT model pre úlohu generovania otázok. Poskytnutý prístup do repozitára bert-train. Ak skript bude fungovať, tak ho pridajte do repozitára bert-train/huggingface/clm Zásobník úloh: From 5df5b672c8dfee1af56779de55866c42fac872e2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 11:26:47 +0000 Subject: [PATCH 69/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 30 ++++++++++++++++---- 1 file changed, 24 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 151995ee..ad297fe6 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -22,6 +22,24 @@ Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) - [BP Matej Kobyľan](/students/2020/matej_kobylan) +Stretnutie 28.10.2022 + +Stav: + +- Preštudované články o text categorization, BERT, KNN. Napísaný krátky report. + +Úlohy: + +- Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP. +- Pokračujte v experimente s HF transformers a kategorizáciou. + +Zásobník úloh: + +- Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií. +- Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie. + + + Stretnutie 30.9.2022: Stav: @@ -30,17 +48,17 @@ Stav: Úlohy: -- Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. -- Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. -- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. -- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. +- [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. +- [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. +- [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. +- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. -- Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. +- [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. Zásobník úloh: -- Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. +- [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. # Vedecký projekt 2022 From 8225a94b2a5616d1fbf89ed6bf26569a604cc19a Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 11:34:48 +0000 Subject: [PATCH 70/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 12 ++++++++++-- 1 file changed, 10 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index ad297fe6..c0c8fa1d 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -17,6 +17,15 @@ Téma: Vyhľadávanie na slovenskej Wikipédii - Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. - alebo Implementujte systém na kategorizáciu slovenských novinových článkov. +Názov: + +Automatická kategorizácia slovenského textu + +1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód. +2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie. +3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte. +4. Vyhodnotte experimenty a identifikujte slabé miesta zvoleného prístupu. + Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) @@ -39,7 +48,6 @@ Zásobník úloh: - Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie. - Stretnutie 30.9.2022: Stav: @@ -51,7 +59,7 @@ Stav: - [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. - [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. - [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. -- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. +- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. - [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. From 1b59e3931b61341fb1e78e6d48e99b50a62a94d7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 11:36:20 +0000 Subject: [PATCH 71/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index c0c8fa1d..29c657e0 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -14,8 +14,10 @@ rok začiatku štúdia: 2020 Téma: Vyhľadávanie na slovenskej Wikipédii Úloha: -- Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. -- alebo Implementujte systém na kategorizáciu slovenských novinových článkov. + +- Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií. +- Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií. + Názov: From 7e1fccbc1f610ea1370b0a880459da0bba744ba7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 11:37:35 +0000 Subject: [PATCH 72/81] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 29c657e0..9c4c0eaa 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -43,6 +43,7 @@ Stav: - Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP. - Pokračujte v experimente s HF transformers a kategorizáciou. +- Pozrite si skripty na repozitári slovakretrieval a skúste ich rozbehnúť. Zásobník úloh: From 05eeddad6a63256ff33f401efac8eefbb9712045 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sat, 29 Oct 2022 12:04:29 +0000 Subject: [PATCH 73/81] Add 'pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md' --- ...tence Embeddings Multilingual using Knowledge Distillation.md | 1 + 1 file changed, 1 insertion(+) create mode 100644 pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md diff --git a/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md b/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md new file mode 100644 index 00000000..c2ea1949 --- /dev/null +++ b/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md @@ -0,0 +1 @@ +# Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation \ No newline at end of file From 62c30e54055496c9a4d3d6f88d3ff9b9c6e1bbe1 Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Sun, 30 Oct 2022 10:25:07 +0000 Subject: [PATCH 74/81] Update 'pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md' --- ...beddings Multilingual using Knowledge Distillation.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md b/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md index c2ea1949..96f38228 100644 --- a/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md +++ b/pages/students/2019/michal_stromko/vp2023/articles/Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation.md @@ -1 +1,8 @@ -# Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation \ No newline at end of file +# Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation + +## Abstrak +- tento článok predstavuje vylepšenia vyhľadávania, na základe rozšírenia modelu, pomocou pridania nových viet do modelu. +- tieto vety su podobne tym ktore sa uz nachadzali v modeli, a vypocitane vektory by mali byt umiestnene, tak aby boli blyzko pri predtym vypocitanom embedingu. +- pri takomto trenovani pouzivame trenovanie viacjazycnych viet. +- vyhodou takéhoto použitia je jednoduché rozšírenie existujúcich modelov s relatívne malým počtom vzoriek. +- článok je zameraný na ukážku účinosti vyhľadávania pre viac ako 50 jazykov z rôznych rodín, v konečnom dôsledku to môže znamenať aj zahrnutie slovenského jazyka. From 79ec7d1a7111059533d9f06eab34299cd2488833 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Nov 2022 08:21:22 +0000 Subject: [PATCH 75/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- .../2020/jakub_kristian_lukas/README.md | 21 +++++++++++++------ 1 file changed, 15 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 203b1671..d13669a5 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -21,6 +21,16 @@ Návrh na zadanie: - Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers. - Vypracovať webové demo. +Stretnutie 3.111. + +Stav: + +- štúdium Python. +- Vyskúšané niektoré HF HS modely. + +Úlohy: + + Stretnutie 7.10. @@ -33,15 +43,14 @@ Stav: Úlohy: -- Prečítať a napísať poznámky na jednu stranu. Pozrite si aj súvisiace články, +- [ ] Prečítať a napísať poznámky na jednu stranu. Pozrite si aj súvisiace články, - https://arxiv.org/abs/2004.06465 -- Prejdite si knihu Dive into Python 3. -- Prejdite si HF Tutoriál. -- Vyskúšať a preštudovať tieto modely +- [ ] Prejdite si HF Tutoriál. +- [ ] Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit +- [x] Prejdite si knihu Dive into Python 3. +- [x] Vyskúšať a preštudovať tieto modely - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection -- Pozrite si https://git.kemt.fei.tuke.sk/mg240ia/Hate-Speech-Detector-Streamlit - Stretnutie 29.9. From b97ccf69a11e7da13512d2dd2e3fbff79631a394 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Nov 2022 08:26:53 +0000 Subject: [PATCH 76/81] Update 'pages/students/2020/jakub_kristian_lukas/README.md' --- pages/students/2020/jakub_kristian_lukas/README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index d13669a5..0e9c63a7 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -30,6 +30,8 @@ Stav: Úlohy: +- Prejdite si Streamlit tutoriál. +- Pokračovať v otvorených úlohách. Spojazdnite streamlit HS demo. Píšte si poznámky z prehľadového článku, Prečítajte si súvisiace články a napíšte poznánky. Stretnutie 7.10. From 1cc689607fcf1f7eee8f604db9b461c715b5c1e2 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 10 Nov 2022 09:06:08 +0000 Subject: [PATCH 77/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 74127c97..b4605239 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -11,6 +11,16 @@ rok začiatku štúdia: 2019 # Vedecky projekt 2022/23 +Návrh na zadanie diplomovej práce: + +- Vypracujte prehľad najnovších metód sémantického vyhľadávania pomocou neurónvých sietí. +- Vyberte vhodnú metódu pre vyhľadávanie a modifikujte ju tak aby bola použiteľná pre slovenské texty. +- S vybranou metódou vykonajte experiment s vyhľadávaním. Metódu porovnajte s najmenej jednou inou metódou. +- Vyhodnotte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. + + +Bolo by fajn, keby z DP bol vedecký článok. + Súvisiace práce: - Matej Kobyľan From e2a5a6e07f3dc8489ad7c467fe5ff6d3b3df2702 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 10 Nov 2022 09:09:56 +0000 Subject: [PATCH 78/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 13 ++++--------- 1 file changed, 4 insertions(+), 9 deletions(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index b4605239..6cdaa725 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -16,7 +16,7 @@ Návrh na zadanie diplomovej práce: - Vypracujte prehľad najnovších metód sémantického vyhľadávania pomocou neurónvých sietí. - Vyberte vhodnú metódu pre vyhľadávanie a modifikujte ju tak aby bola použiteľná pre slovenské texty. - S vybranou metódou vykonajte experiment s vyhľadávaním. Metódu porovnajte s najmenej jednou inou metódou. -- Vyhodnotte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. +- Vyhodnoťte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. Bolo by fajn, keby z DP bol vedecký článok. @@ -38,15 +38,10 @@ Ciele na semester: Klucove slova: -- Jina -- Rasa -- Vektorova Databaza +- Jina, Rasa, Vektorova Databaza - Hierarchicke vztahy medzi dokumentami -- Faiss -- Elasticsearch-Opensearch -- Fasttext -- https://aclanthology.org/2020.emnlp-main.550/ -- Dense Passage Retrieval for Open-Domain Question Answering. +- Faiss, Elasticsearch-Opensearch, Fasttext +- https://aclanthology.org/2020.emnlp-main.550/, Dense Passage Retrieval for Open-Domain Question Answering. - Urobit demo vyhladavanie v slovenskej wikipedii. - LABSE, LASER embedding model - multi language IR From 1dd44d87f3e275652938646b608a22d405565305 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 10 Nov 2022 09:15:07 +0000 Subject: [PATCH 79/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 6cdaa725..3fc49a3c 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -46,13 +46,21 @@ Klucove slova: - LABSE, LASER embedding model - multi language IR +Stretnutie 10.11.2022 + +Zasobnik uloh: + +- Rozbehať skript SlovakRetrieval ktorý využíva FAISS. V skripte je už aj BM25, ostatné modely aj vyhodnotenie Recall na množine SK QUAD. +- Vytvoriť slovenské vyhľadávanie pomocou WordEmbeding. Použiť slovenský Spacy Model. +- Dotrénovať sentence transformer na slovenský jazyk. Ako? + +Stretnutie 14.10.2022 Ulohy: - Precitat si clanok, napiste poznamky - Navrhnite na co by ste sa chceli sustredit. -Stretnutie 14.10.2022 Stav: From 4e988eb1d56f78e55d716da420814a355dec426f Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 10 Nov 2022 09:20:46 +0000 Subject: [PATCH 80/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 3fc49a3c..588f7c11 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -18,8 +18,11 @@ Návrh na zadanie diplomovej práce: - S vybranou metódou vykonajte experiment s vyhľadávaním. Metódu porovnajte s najmenej jednou inou metódou. - Vyhodnoťte experimenty a identifikujte slabé miesta a navrhnite zlepšenia. +Ciele DP: -Bolo by fajn, keby z DP bol vedecký článok. +- Bolo by fajn, keby z DP bol vedecký článok. +- Dotrénovať slovenský ST model. +- Porovnať viacero metód na vyhľadávanie v slovenskom texte - BM25, TF IDF, WordEmbedding, SentenceTransformers, Alebo iné embeddingy. Súvisiace práce: @@ -48,6 +51,11 @@ Klucove slova: Stretnutie 10.11.2022 +Stav: + +- Konvertovaný SCNC do JSON. +- Práca s Jina-Elasticsearch pre uloženie embeddingov. + Zasobnik uloh: - Rozbehať skript SlovakRetrieval ktorý využíva FAISS. V skripte je už aj BM25, ostatné modely aj vyhodnotenie Recall na množine SK QUAD. From 01bbdbd87174d508f3238d2e64fe4f70fbe9ae8c Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 10 Nov 2022 09:25:17 +0000 Subject: [PATCH 81/81] Update 'pages/students/2019/michal_stromko/README.md' --- pages/students/2019/michal_stromko/README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/michal_stromko/README.md b/pages/students/2019/michal_stromko/README.md index 588f7c11..8858e89a 100644 --- a/pages/students/2019/michal_stromko/README.md +++ b/pages/students/2019/michal_stromko/README.md @@ -55,11 +55,17 @@ Stav: - Konvertovaný SCNC do JSON. - Práca s Jina-Elasticsearch pre uloženie embeddingov. +- Prečítaný a spoznámkovaný článok "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation". -Zasobnik uloh: +Úlohy: - Rozbehať skript SlovakRetrieval ktorý využíva FAISS. V skripte je už aj BM25, ostatné modely aj vyhodnotenie Recall na množine SK QUAD. - Vytvoriť slovenské vyhľadávanie pomocou WordEmbeding. Použiť slovenský Spacy Model. +- Prečítať a spoznámkovať ďalšie články z https://github.com/UKPLab/sentence-transformers + + +Zasobnik uloh: + - Dotrénovať sentence transformer na slovenský jazyk. Ako? Stretnutie 14.10.2022