dmytro_ushatenko/pages/students/2020/matus_suchanic/README.md

4.1 KiB

title published taxonomy
Matúš Suchanič true
category tag author
vp2022
bp2023
ir
Daniel Hladek

rok začiatku štúdia: 2020

Bakalárska práca 2023

Téma: Vyhľadávanie na slovenskej Wikipédii

Úloha:

  • Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie.
  • alebo Implementujte systém na kategorizáciu slovenských novinových článkov.

Názov:

Automatická kategorizácia slovenského textu

  1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód.
  2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie.
  3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte.
  4. Vyhodnotte experimenty a identifikujte slabé miesta zvoleného prístupu.

Práca súvisí s:

Stretnutie 28.10.2022

Stav:

  • Preštudované články o text categorization, BERT, KNN. Napísaný krátky report.

Úlohy:

  • Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP.
  • Pokračujte v experimente s HF transformers a kategorizáciou.

Zásobník úloh:

  • Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií.
  • Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie.

Stretnutie 30.9.2022:

Stav:

  • Je nainštalovaný Anaconda a HF transformers.

Úlohy:

  • Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.

  • Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.

  • [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany.

  • Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli.

  • Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.

Zásobník úloh:

  • Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze.

Vedecký projekt 2022

Extrakcia informácií z webových stránok

Finálny cieľ:

  • Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
  • Naučte sa niečo o spracovaní prirodzeného jazyka

Výstupy:

  • Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
  • Skript na parsovanie dvoch stránok

Stretnutie 3.6.

Stav:

  • Odovzdaná písomná správa nie je uspokojivá.

Úlohy:

  • Nainštalujte si Hugging Face Transformers
  • Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
  • Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
  • Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.

Stretnutie 18.3.2022

Úlohy:

  • Nainštalovať si systém Anaconda
  • Napíšte návod ako nainštalovať a používať systém Anacona
  • Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
  • napíšte krátky úvod do knižnice Huggingface Transformers
  • Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka