forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Matúš Suchanič | true | 
  | 
rok začiatku štúdia: 2020
Vedecký projekt 2022
Extrakcia informácií z webových stránok
Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
 - Naučte sa niečo o spracovaní prirodzeného jazyka
 
Výstupy:
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
 - Skript na parsovanie dvoch stránok
 
Stretnutie 3.6.
Stav:
- Odovzdaná písomná správa nie je uspokojivá.
 
Úlohy:
- Nainštalujte si Hugging Face Transformers
 - Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
 - Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
 - Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.
 
Stretnutie 18.3.2022
Úlohy:
- Nainštalovať si systém Anaconda
 - Napíšte návod ako nainštalovať a používať systém Anacona
 - Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
 - napíšte krátky úvod do knižnice Huggingface Transformers
 - Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka