dmytro_ushatenko/pages/students/2020/matus_suchanic/README.md

130 lines
5.2 KiB
Markdown
Raw Normal View History

2022-03-18 13:41:10 +00:00
---
title: Matúš Suchanič
published: true
taxonomy:
2022-09-28 14:22:20 +00:00
category: [vp2022,bp2023]
tag: [ir]
2022-03-18 13:41:10 +00:00
author: Daniel Hladek
---
rok začiatku štúdia: 2020
2022-09-28 14:22:20 +00:00
# Bakalárska práca 2023
Téma: Vyhľadávanie na slovenskej Wikipédii
Úloha:
- Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií.
- Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií.
Názov:
Automatická kategorizácia slovenského textu
1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód.
2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie.
3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte.
4. Vyhodnoťte experimenty a identifikujte slabé miesta zvoleného prístupu.
2022-09-29 07:34:37 +00:00
Práca súvisí s:
- [DP Michal Stromko](/students/2019/michal_stromko)
- [BP Matej Kobyľan](/students/2020/matej_kobylan)
Stretnutie 21.1.2023
Stav:
- Prečítané články, urobený report na cca 7 strán.
Úlohy:
- Boli vedúcim poskytnuté dáta, ktoré obsahujú názvy článkov, kategórie, aj texty článkov.
- Urobte skript, ktorý spojí dáta tak, aby boli dáta spolu - názov, text a zoznam kategórií.
- Natrénujte na týchto dátach neurónovú sieť pre kategorizáciu článkov.
- Vedúci Vám poskytne ďalšiu množinu v takom istom formáte s vyhodnocovacími dátami. Na tejto množine to vyhodnotíte. Alebo rozdeľte trénovaciu množinu na dve časti a vyhodnocovaciu množinu dajte stranou.
- Na klasifikáciu použite: toolkit transformers, model slovakbert, alebo model slovak gpt, slovak t5
- Začnite písať BP. Do práce dajte definíciu úlohy a zoznam metód, ktorou sa táto úloha rieši. Vysvetlite, ako funguje klasifikácia dokumentov pomocou modelu BERT alebo Roberta, a GPT.
Opíšte experiment - použitý model, použité dáta, spôsob vyhodnotenia a výsledky. Napíšte čo z toho vyplýva - kde je priestor na zlepšenie.
Stretnutie 28.10.2022
Stav:
- Preštudované články o text categorization, BERT, KNN. Napísaný krátky report.
Úlohy:
- Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP.
- Pokračujte v experimente s HF transformers a kategorizáciou.
- Pozrite si skripty na repozitári slovakretrieval a skúste ich rozbehnúť.
Zásobník úloh:
- Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií.
- Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie.
Stretnutie 30.9.2022:
2022-09-29 07:34:37 +00:00
Stav:
- Je nainštalovaný Anaconda a HF transformers.
2022-09-29 07:57:44 +00:00
Úlohy:
- [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.
- [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.
- [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany.
- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli.
- [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.
Zásobník úloh:
- [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze.
2022-09-28 14:22:20 +00:00
2022-03-18 13:41:10 +00:00
# Vedecký projekt 2022
Extrakcia informácií z webových stránok
Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
- Naučte sa niečo o spracovaní prirodzeného jazyka
Výstupy:
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
2022-03-18 13:41:10 +00:00
- Skript na parsovanie dvoch stránok
Stretnutie 3.6.
Stav:
- Odovzdaná písomná správa nie je uspokojivá.
Úlohy:
- Nainštalujte si Hugging Face Transformers
- Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
- Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
- Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.
2022-03-18 13:41:10 +00:00
Stretnutie 18.3.2022
Úlohy:
- Nainštalovať si systém Anaconda
- Napíšte návod ako nainštalovať a používať systém Anacona
- Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
- napíšte krátky úvod do knižnice Huggingface Transformers
- Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka