lp832ut/zpwiki

Fork 0

forked from KEMT/zpwiki

dano 94a0b9bbd8 Update 'pages/students/2020/matus_suchanic/README.md'

2023-01-27 12:21:40 +00:00

5.6 KiB

Raw Blame History

title

published

taxonomy

Matúš Suchanič

true

Bakalárska práca 2023

Téma: Vyhľadávanie na slovenskej Wikipédii

Úloha:

Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií.
Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií.

Názov:

Automatická kategorizácia slovenského textu

Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód.
Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie.
Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte.
Vyhodnoťte experimenty a identifikujte slabé miesta zvoleného prístupu.

Práca súvisí s:

Stretnutie 27.1.2023

Podmienky na zápočet:

Pripravte slovenskú databázu na trénovanie úlohy klasifikácie článkov.
Zopakujte experiment pre klasifikáciu článkov v prostredí HF transformers.
Natrénujte vlastný model na HF transformers na klasifikáciu článkov.
Vykonaný experiment opíšte na min. 2 strany. Napíšte aký model sa používa, aký druh neurónovej siete. Ako prebieha dotrénovanie?

Stretnutie 21.1.2023

Stav:

Prečítané články, urobený report na cca 7 strán.

Úlohy:

Boli vedúcim poskytnuté dáta, ktoré obsahujú názvy článkov, kategórie, aj texty článkov.
Urobte skript, ktorý spojí dáta tak, aby boli dáta spolu - názov, text a zoznam kategórií.
Natrénujte na týchto dátach neurónovú sieť pre kategorizáciu článkov.
Vedúci Vám poskytne ďalšiu množinu v takom istom formáte s vyhodnocovacími dátami. Na tejto množine to vyhodnotíte. Alebo rozdeľte trénovaciu množinu na dve časti a vyhodnocovaciu množinu dajte stranou.
Na klasifikáciu použite: toolkit transformers, model slovakbert, alebo model slovak gpt, slovak t5
Začnite písať BP. Do práce dajte definíciu úlohy a zoznam metód, ktorou sa táto úloha rieši. Vysvetlite, ako funguje klasifikácia dokumentov pomocou modelu BERT alebo Roberta, a GPT. Opíšte experiment - použitý model, použité dáta, spôsob vyhodnotenia a výsledky. Napíšte čo z toho vyplýva - kde je priestor na zlepšenie.

Stretnutie 28.10.2022

Stav:

Preštudované články o text categorization, BERT, KNN. Napísaný krátky report.

Úlohy:

Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP.
Pokračujte v experimente s HF transformers a kategorizáciou.
Pozrite si skripty na repozitári slovakretrieval a skúste ich rozbehnúť.

Zásobník úloh:

Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií.
Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie.

Stretnutie 30.9.2022:

Stav:

Je nainštalovaný Anaconda a HF transformers.

Úlohy:

Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany.
Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku.
[-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany.
Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli.
Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.

Zásobník úloh:

Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze.

Vedecký projekt 2022

Extrakcia informácií z webových stránok

Finálny cieľ:

Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)
Naučte sa niečo o spracovaní prirodzeného jazyka

Výstupy:

Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers
Skript na parsovanie dvoch stránok

Stretnutie 3.6.

Stav:

Odovzdaná písomná správa nie je uspokojivá.

Úlohy:

Nainštalujte si Hugging Face Transformers
Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok.
Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty.
Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok.

Stretnutie 18.3.2022

Úlohy:

Nainštalovať si systém Anaconda
Napíšte návod ako nainštalovať a používať systém Anacona
Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál
napíšte krátky úvod do knižnice Huggingface Transformers
Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka

5.6 KiB Raw Blame History

Bakalárska práca 2023

Vedecký projekt 2022

5.6 KiB

Raw Blame History