--- title: Otvorené projekty published: true taxonomy: category: [info] tag: [nn,nlp] author: Daniel Hladek --- # Otvorené témy záverečných prác Daniel Hládek ## Nápady na projekty - Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. - Sumarizácia na súdnych alebo lekárskych dátach. - Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT. - Spracovanie pomenovaných entít - anonymizácia. - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. - Grafové neurónové siete - súdna doména. Alebo Open Data. - Zber slovenských dát z webu. - Tvorba QA množiny z webu. - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. - RWKW - trénvoanie, dotrénovanie - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). - LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). - LLM Agents - function calling, REACT. - reinformcement v LLM - https://huggingface.co/docs/trl/index - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? - Model distilation. - Skript pre generovanie "gramatických chýb". ## Bakalárske práce Naučíte sa: - niečo o spracovaní prirodzeného jazyka - vytvárať webové aplikácie - pracovať s nástrojmi v jazyku Python - prekonávať technické problémy Požiadavky: - chcieť sa naučiť niečo nové ### Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku - Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku. - Vytvorte demonštračnú webovú aplikáciu. ### Strojový preklad slovenského jazyka - Zoberte existjúci systém pre strojový preklad. - Pripravte existujúci paralelný korpus pre trénovanie. - Vytvorte model pre strojový preklad slovenského jazyka. ### Rozpoznávanie pomenovaných entít v slovenskom jazyku - Zlepšite model pre rozpoznávanie pomenovaných entít - Anotujte korpus, navrhnite lepší klasifikátor. ### Vyhľadávač na slovenskom internete - Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech). - Vytvorte webové rozhranie k vyhľadávaču ## Diplomové práce Naučíte sa: - Niečo viac o neurónových sieťach. - Vytvárať jednoduché programy na úpravu dát. - Zapojiť sa do reálneho výskumu. ### Morfologická analýza s podporou predtrénovania - Zoberte existujúci model pre morfologickú analýzu slovenského jazyka vyhodnotte ho - Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom. ### Slovné jednotky v predspracovaní pre strojový preklad - Natrénujte systém pre strojový preklad - Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad. - Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.