85 lines
3.0 KiB
Markdown
85 lines
3.0 KiB
Markdown
---
|
|
title: Matúš Suchanič
|
|
published: true
|
|
taxonomy:
|
|
category: [vp2022,bp2023]
|
|
tag: [ir]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2020
|
|
|
|
# Bakalárska práca 2023
|
|
|
|
Téma: Vyhľadávanie na slovenskej Wikipédii
|
|
|
|
Úloha:
|
|
- Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie.
|
|
- alebo Implementujte systém na kategorizáciu slovenských novinových článkov.
|
|
|
|
Práca súvisí s:
|
|
|
|
- [DP Michal Stromko](/students/2019/michal_stromko)
|
|
- [BP Matej Kobyľan](/students/2020/matej_kobylan)
|
|
|
|
Stretnutie 30.9.2022:
|
|
|
|
Stav:
|
|
|
|
- Je nainštalovaný Anaconda a HF transformers.
|
|
|
|
Úlohy:
|
|
|
|
- Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.
|
|
- Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.
|
|
- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany.
|
|
- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli.
|
|
|
|
- Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze.
|
|
|
|
# Vedecký projekt 2022
|
|
|
|
Extrakcia informácií z webových stránok
|
|
|
|
Finálny cieľ:
|
|
|
|
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
|
|
- Naučte sa niečo o spracovaní prirodzeného jazyka
|
|
|
|
Výstupy:
|
|
|
|
- Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
|
|
- Skript na parsovanie dvoch stránok
|
|
|
|
Stretnutie 3.6.
|
|
|
|
Stav:
|
|
|
|
- Odovzdaná písomná správa nie je uspokojivá.
|
|
|
|
Úlohy:
|
|
|
|
|
|
- Nainštalujte si Hugging Face Transformers
|
|
- Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
|
|
- Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
|
|
- Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.
|
|
|
|
Stretnutie 18.3.2022
|
|
|
|
Úlohy:
|
|
|
|
- Nainštalovať si systém Anaconda
|
|
- Napíšte návod ako nainštalovať a používať systém Anacona
|
|
- Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
|
|
- napíšte krátky úvod do knižnice Huggingface Transformers
|
|
- Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka
|
|
|
|
|
|
|