--- title: Matúš Suchanič published: true taxonomy: category: [vp2022] tag: [spacy,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Vedecký projekt 2022 Extrakcia informácií z webových stránok Finálny cieľ: - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník) - Naučte sa niečo o spracovaní prirodzeného jazyka Výstupy: - Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers - Skript na parsovanie dvoch stránok Stretnutie 3.6. Stav: - Odovzdaná písomná správa nie je uspokojivá. Úlohy: - Nainštalujte si Hugging Face Transformers - Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok. - Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty. - Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok. Stretnutie 18.3.2022 Úlohy: - Nainštalovať si systém Anaconda - Napíšte návod ako nainštalovať a používať systém Anacona - Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál - napíšte krátky úvod do knižnice Huggingface Transformers - Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka