forked from KEMT/zpwiki
		
	Update pages/students/2023/yevhenii_medushivskyi/README.md
This commit is contained in:
		
							parent
							
								
									7d08f5ecab
								
							
						
					
					
						commit
						e64bf32b17
					
				| @ -23,5 +23,25 @@ Predbežné zadanie: | |||||||
| 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. | ||||||
| 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 28.2.2025 | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. | ||||||
|  | - Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. | ||||||
|  | - Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. | ||||||
|  | - Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. | ||||||
|  | - Vytvorte korpus medicínskych dát. | ||||||
|  | - Vytvorte korpus novinových článkov a blogov. | ||||||
|  | - Vytvorte korpus webových diskusií. | ||||||
|  | - Vytvorte korpus všeobecných dát. | ||||||
|  | - Vytvorené texty analyzujte.  | ||||||
|  |   | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user