This commit is contained in:
Daniel Hládek 2022-03-18 14:41:10 +01:00
parent 1396272f18
commit 5ea1c96a20

View File

@ -0,0 +1,38 @@
---
title: Matúš Suchanič
published: true
taxonomy:
category: [vp2022]
tag: [spacy,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2020
# Vedecký projekt 2022
Extrakcia informácií z webových stránok
Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
- Naučte sa niečo o spracovaní prirodzeného jazyka
Výstupy:
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HUggingFace Transformers
- Skript na parsovanie dvoch stránok
Stretnutie 18.3.2022
Úlohy:
- Nainštalovať si systém Anaconda
- Napíšte návod ako nainštalovať a používať systém Anacona
- Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
- napíšte krátky úvod do knižnice Huggingface Transformers
- Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka