forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			139 lines
		
	
	
		
			5.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			139 lines
		
	
	
		
			5.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Matúš Suchanič
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [vp2022,bp2023]
 | |
|     tag: [ir]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| rok začiatku štúdia: 2020
 | |
| 
 | |
| # Bakalárska práca 2023
 | |
| 
 | |
| Téma: Vyhľadávanie na slovenskej Wikipédii
 | |
| 
 | |
| Úloha: 
 | |
| 
 | |
| - Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií.
 | |
| - Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií. 
 | |
| 
 | |
| Názov: 
 | |
| 
 | |
| Automatická kategorizácia slovenského textu
 | |
| 
 | |
| 1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód.
 | |
| 2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie.
 | |
| 3. Vyberte vhodnú metódu kategorizácie, pripravte a vykonajte experimenty na jej vyhodnotnie. 
 | |
| 4. Vyhodnoťte experimenty a identifikujte slabé miesta zvoleného prístupu.
 | |
| 
 | |
| Práca súvisí s:
 | |
| 
 | |
| - [DP Michal Stromko](/students/2019/michal_stromko)
 | |
| - [BP Matej Kobyľan](/students/2020/matej_kobylan)
 | |
| 
 | |
| Stretnutie 27.1.2023
 | |
| 
 | |
| Podmienky na zápočet:
 | |
| 
 | |
| - Pripravte slovenskú databázu na trénovanie úlohy klasifikácie článkov.
 | |
| - Zopakujte experiment pre klasifikáciu článkov v prostredí HF transformers.
 | |
| - Natrénujte vlastný model na  HF transformers na klasifikáciu článkov.
 | |
| - Vykonaný experiment opíšte na min. 2 strany. Napíšte aký model sa používa, aký druh neurónovej siete. Ako prebieha dotrénovanie?
 | |
| 
 | |
| 
 | |
| Stretnutie 21.1.2023
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Prečítané články, urobený report na cca 7 strán.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Boli vedúcim poskytnuté dáta, ktoré obsahujú názvy článkov, kategórie, aj texty článkov. 
 | |
| - Urobte skript, ktorý spojí dáta tak, aby boli dáta spolu - názov, text a zoznam kategórií.
 | |
| - Natrénujte na týchto dátach neurónovú sieť pre kategorizáciu článkov. 
 | |
| - Vedúci Vám poskytne ďalšiu množinu v takom istom formáte s vyhodnocovacími dátami. Na tejto množine to vyhodnotíte. Alebo rozdeľte trénovaciu množinu na dve časti a vyhodnocovaciu množinu dajte stranou.
 | |
| - Na klasifikáciu použite: toolkit transformers, model slovakbert, alebo model slovak gpt, slovak t5
 | |
| - Začnite písať BP. Do práce dajte definíciu úlohy a zoznam metód, ktorou sa táto úloha rieši. Vysvetlite, ako funguje klasifikácia dokumentov pomocou modelu BERT alebo Roberta, a GPT.
 | |
| Opíšte experiment - použitý model, použité dáta, spôsob vyhodnotenia a výsledky. Napíšte čo z toho vyplýva - kde je priestor na zlepšenie.
 | |
| 
 | |
| Stretnutie 28.10.2022
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Preštudované články o text categorization, BERT, KNN. Napísaný krátky report.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v štúdiu odborných  článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP.
 | |
| - Pokračujte v experimente s HF transformers a kategorizáciou.
 | |
| - Pozrite si skripty na repozitári slovakretrieval a skúste ich rozbehnúť.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií.
 | |
| - Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie.
 | |
| 
 | |
| 
 | |
| Stretnutie 30.9.2022:
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Je nainštalovaný Anaconda a HF transformers.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.
 | |
| - [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.
 | |
| - [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie.  Prehľad by mal mať aspoň 2 strany.
 | |
| - [x] Prečítajte si článok  "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. 
 | |
| 
 | |
| - [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. 
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. 
 | |
| 
 | |
| # Vedecký projekt 2022
 | |
| 
 | |
| Extrakcia informácií z webových stránok
 | |
| 
 | |
| Finálny cieľ: 
 | |
| 
 | |
| - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
 | |
| - Naučte sa niečo o spracovaní prirodzeného jazyka
 | |
| 
 | |
| Výstupy:
 | |
| 
 | |
| - Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
 | |
| - Skript na parsovanie dvoch stránok
 | |
| 
 | |
| Stretnutie 3.6.
 | |
| 
 | |
| Stav: 
 | |
| 
 | |
| - Odovzdaná písomná správa nie je uspokojivá.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| 
 | |
| - Nainštalujte si Hugging Face Transformers
 | |
| - Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
 | |
| - Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
 | |
| - Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.
 | |
| 
 | |
| Stretnutie 18.3.2022
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Nainštalovať si systém Anaconda
 | |
| - Napíšte návod ako nainštalovať a používať systém Anacona
 | |
| - Nainštalovať si knižnicu BeautifulSoup4,  prejsť si tutoriál
 | |
| - napíšte krátky úvod do knižnice Huggingface Transformers
 | |
| - Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka
 | |
| 
 | |
| 
 | |
| 
 |