forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									c3445e1106
								
							
						
					
					
						commit
						eb90c24637
					
				| @ -23,13 +23,36 @@ Predbežné zadanie: | |||||||
| 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | ||||||
| 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 20.8.2025 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Oboznámenie sa s Common Crawl. | ||||||
|  | - Splnené minulé úlohy | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky. | ||||||
|  | - Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu. | ||||||
|  | - Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train). | ||||||
|  | - Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server. | ||||||
|  | - Pridajte slovenské dáta z HPLT2. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Oboznámte sa s platformou Docker. | ||||||
|  | - Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný. | ||||||
|  | - Vytvorte doménovo orientovaný crawler. | ||||||
|  | - Nasadte monitorovanie behu crawlera pomocou webovej aplikácie. | ||||||
|  | 
 | ||||||
| Stretnutie 28.2.2025 | Stretnutie 28.2.2025 | ||||||
| 
 | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
| - Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. | - [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. | ||||||
| - Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. | - [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. | ||||||
| - Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). | - [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| Zásobník úloh: | Zásobník úloh: | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user