95 lines
		
	
	
		
			3.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			95 lines
		
	
	
		
			3.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Yevhenii Medushivskyi
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [bp2026]
 | 
						|
    tag: [ir,lm,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
 | 
						|
rok začiatku štúdia: 2023
 | 
						|
 | 
						|
# Bakalárska práca 2026
 | 
						|
 | 
						|
 | 
						|
Téma:
 | 
						|
 | 
						|
Extrakcia informácií z webových stránok
 | 
						|
 | 
						|
Predbežné zadanie:
 | 
						|
 | 
						|
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
 | 
						|
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | 
						|
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
 | 
						|
 | 
						|
Stretnutie 9.10.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Pridané skripty pre pridanie hplt2
 | 
						|
- Prečítané Web Mining and Text mining - vypracované poznámky.
 | 
						|
- Preštudované Docker.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pozrite sa na HPLT3.
 | 
						|
- Pozrite sa na https://github.com/lc/gau
 | 
						|
- Zistite na čo je súbor robots.txt.
 | 
						|
- Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
 | 
						|
- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
 | 
						|
- Mal by mať časť, ktorá sa zameriava na určité stránky  (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
 | 
						|
- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. 
 | 
						|
- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
 | 
						|
- Kódy posielajte na katedrový git.
 | 
						|
- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.
 | 
						|
 | 
						|
Zásobník úloh
 | 
						|
 | 
						|
 | 
						|
Stretnutie 20.8.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Oboznámenie sa s Common Crawl.
 | 
						|
- Splnené minulé úlohy
 | 
						|
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky.
 | 
						|
- Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu.
 | 
						|
- Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train).
 | 
						|
- Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server.
 | 
						|
- Pridajte slovenské dáta z HPLT2.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Oboznámte sa s platformou Docker.
 | 
						|
- Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný.
 | 
						|
- Vytvorte doménovo orientovaný crawler.
 | 
						|
- Nasadte monitorovanie behu crawlera pomocou webovej aplikácie.
 | 
						|
 | 
						|
Stretnutie 28.2.2025
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
 | 
						|
- [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
 | 
						|
- [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
 | 
						|
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
 | 
						|
- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
 | 
						|
- Vytvorte korpus medicínskych dát.
 | 
						|
- Vytvorte korpus novinových článkov a blogov.
 | 
						|
- Vytvorte korpus webových diskusií.
 | 
						|
- Vytvorte korpus všeobecných dát.
 | 
						|
- Vytvorené texty analyzujte. 
 | 
						|
 
 | 
						|
 | 
						|
 | 
						|
 |