39 lines
964 B
Markdown
39 lines
964 B
Markdown
|
---
|
||
|
title: Matúš Suchanič
|
||
|
published: true
|
||
|
taxonomy:
|
||
|
category: [vp2022]
|
||
|
tag: [spacy,nlp]
|
||
|
author: Daniel Hladek
|
||
|
---
|
||
|
|
||
|
rok začiatku štúdia: 2020
|
||
|
|
||
|
# Vedecký projekt 2022
|
||
|
|
||
|
Extrakcia informácií z webových stránok
|
||
|
|
||
|
|
||
|
Finálny cieľ:
|
||
|
|
||
|
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
|
||
|
- Naučte sa niečo o spracovaní prirodzeného jazyka
|
||
|
|
||
|
Výstupy:
|
||
|
|
||
|
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HUggingFace Transformers
|
||
|
- Skript na parsovanie dvoch stránok
|
||
|
|
||
|
Stretnutie 18.3.2022
|
||
|
|
||
|
Úlohy:
|
||
|
|
||
|
- Nainštalovať si systém Anaconda
|
||
|
- Napíšte návod ako nainštalovať a používať systém Anacona
|
||
|
- Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
|
||
|
- napíšte krátky úvod do knižnice Huggingface Transformers
|
||
|
- Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka
|
||
|
|
||
|
|
||
|
|