forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			71 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			71 lines
		
	
	
		
			2.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Yevhenii Medushivskyi
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [bp2026]
 | |
|     tag: [ir,lm,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| 
 | |
| rok začiatku štúdia: 2023
 | |
| 
 | |
| # Bakalárska práca 2026
 | |
| 
 | |
| 
 | |
| Téma:
 | |
| 
 | |
| Extrakcia informácií z webových stránok
 | |
| 
 | |
| Predbežné zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad webových korpusov a metód ich tvorby.
 | |
| 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | |
| 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 | |
| 
 | |
| Stretnutie 20.8.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Oboznámenie sa s Common Crawl.
 | |
| - Splnené minulé úlohy
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky.
 | |
| - Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu.
 | |
| - Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train).
 | |
| - Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server.
 | |
| - Pridajte slovenské dáta z HPLT2.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Oboznámte sa s platformou Docker.
 | |
| - Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný.
 | |
| - Vytvorte doménovo orientovaný crawler.
 | |
| - Nasadte monitorovanie behu crawlera pomocou webovej aplikácie.
 | |
| 
 | |
| Stretnutie 28.2.2025
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
 | |
| - [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
 | |
| - [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
 | |
| - Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
 | |
| - Vytvorte korpus medicínskych dát.
 | |
| - Vytvorte korpus novinových článkov a blogov.
 | |
| - Vytvorte korpus webových diskusií.
 | |
| - Vytvorte korpus všeobecných dát.
 | |
| - Vytvorené texty analyzujte. 
 | |
|  
 | |
| 
 | |
| 
 | |
| 
 |