diff --git a/pages/04.categories/bp2022/category.md b/pages/04.categories/bp2022/category.md index d9dcabd7c8..ebeea94b73 100644 --- a/pages/04.categories/bp2022/category.md +++ b/pages/04.categories/bp2022/category.md @@ -19,7 +19,12 @@ Požiadavky: ## Témy -### Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku +### Automatické odpovede z Wikipédie + +1. Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku +2. Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku. +3. Vytvorte demonštračnú webovú aplikáciu. +4. Navrhnite zlepšenia systému pre generovanie odpovede. - Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku. - Vytvorte demonštračnú webovú aplikáciu. @@ -30,13 +35,42 @@ Požiadavky: - Pripravte existujúci paralelný korpus pre trénovanie. - Vytvorte model pre strojový preklad slovenského jazyka. +1. Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku +2. Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku. +3. Vytvorte demonštračnú webovú aplikáciu. +4. Navrhnite zlepšenia systému pre generovanie odpovede. + ### Rozpoznávanie pomenovaných entít v slovenskom jazyku - Zlepšite model pre rozpoznávanie pomenovaných entít. - Anotujte korpus, navrhnite lepší klasifikátor. +Pomenované entity sú väčšinou vlastné podstatné mená v texte. Ich rozpoznanie nám pomôže určiť o čom text je. To sa často využíva v chatbotoch alebo vo vyhľadávaní v texte. + +1. Vypracujte prehľad metód rpre rozpoznávanie pomenovaných entít v texte. +2. Vyberte vhodnú metódu a natrénujte model pre rozpoznávanie pomenovaných entít. +3. Vykonajte viacero experimentov a zistite s akými parametrami má model najvyššiu presnosť. +4. Navrhnite ďalšie zlepšenia modelu pre rozpoznávanie pomenovaných entít. + ### Vyhľadávač na slovenskom internete +Databáza dokumentov je k dispozícii. Na vytvorenie indexu je možné použiť Elasticsearch alebo podobný systém. +Dokument je potrebné spracovať pomocou skriptu v jazyku Python alebo Javascript. + - Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech). - Vytvorte webové rozhranie k vyhľadávaču. +1. Vypracujte prehľad metód pre získavanie informácií. +2. Vytvorte vyhľadávací index dokumentov zo slovenského internetu. +3. Vytvorte demonštračnú webovú aplikáciu pre vyhľadávanie na slovenskom internete. +4. Navrhnite zlepšenia vyhľadávania. + +### Model Spacy pre spracovanie prirodzeného jazyka + +Knižnica Spacy je často používaný nástroj na spracovanie prirodzeného jazyka. +Dobrý model slovenčiny pomože pri vývoji virtuálnych asistentov a iných nástrojov. + +1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa. +2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka. +3. Indentifikujte slabé miesta a zlepšite presnosť spracovania. +4. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.