zpwiki/pages/students/2020/matus_suchanic
2022-03-18 14:41:10 +01:00
..
README.md z 2022-03-18 14:41:10 +01:00

title published taxonomy
Matúš Suchanič true
category tag author
vp2022
spacy
nlp
Daniel Hladek

rok začiatku štúdia: 2020

Vedecký projekt 2022

Extrakcia informácií z webových stránok

Finálny cieľ:

  • Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
  • Naučte sa niečo o spracovaní prirodzeného jazyka

Výstupy:

  • Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HUggingFace Transformers
  • Skript na parsovanie dvoch stránok

Stretnutie 18.3.2022

Úlohy:

  • Nainštalovať si systém Anaconda
  • Napíšte návod ako nainštalovať a používať systém Anacona
  • Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
  • napíšte krátky úvod do knižnice Huggingface Transformers
  • Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka