forked from KEMT/zpwiki
		
	Update pages/students/2023/yevhenii_medushivskyi/README.md
This commit is contained in:
		
							parent
							
								
									7d08f5ecab
								
							
						
					
					
						commit
						e64bf32b17
					
				@ -23,5 +23,25 @@ Predbežné zadanie:
 | 
				
			|||||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | 
					2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 | 
				
			||||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 | 
					3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Stretnutie 28.2.2025
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Úlohy:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
 | 
				
			||||||
 | 
					- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
 | 
				
			||||||
 | 
					- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Zásobník úloh:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
 | 
				
			||||||
 | 
					- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
 | 
				
			||||||
 | 
					- Vytvorte korpus medicínskych dát.
 | 
				
			||||||
 | 
					- Vytvorte korpus novinových článkov a blogov.
 | 
				
			||||||
 | 
					- Vytvorte korpus webových diskusií.
 | 
				
			||||||
 | 
					- Vytvorte korpus všeobecných dát.
 | 
				
			||||||
 | 
					- Vytvorené texty analyzujte. 
 | 
				
			||||||
 | 
					 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user