dmytro_ushatenko/pages/students/2020/matus_suchanic/README.md

61 lines
1.7 KiB
Markdown
Raw Normal View History

2022-03-18 13:41:10 +00:00
---
title: Matúš Suchanič
published: true
taxonomy:
2022-09-28 14:22:20 +00:00
category: [vp2022,bp2023]
tag: [ir]
2022-03-18 13:41:10 +00:00
author: Daniel Hladek
---
rok začiatku štúdia: 2020
2022-09-28 14:22:20 +00:00
# Bakalárska práca 2023
Téma: Vyhľadávanie na slovenskej Wikipédii
Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie.
2022-03-18 13:41:10 +00:00
# Vedecký projekt 2022
Extrakcia informácií z webových stránok
Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
- Naučte sa niečo o spracovaní prirodzeného jazyka
Výstupy:
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
2022-03-18 13:41:10 +00:00
- Skript na parsovanie dvoch stránok
Stretnutie 3.6.
Stav:
- Odovzdaná písomná správa nie je uspokojivá.
Úlohy:
- Nainštalujte si Hugging Face Transformers
- Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
- Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
- Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.
2022-03-18 13:41:10 +00:00
Stretnutie 18.3.2022
Úlohy:
- Nainštalovať si systém Anaconda
- Napíšte návod ako nainštalovať a používať systém Anacona
- Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
- napíšte krátky úvod do knižnice Huggingface Transformers
- Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka