forked from KEMT/zpwiki
90 lines
2.9 KiB
Markdown
90 lines
2.9 KiB
Markdown
---
|
|
title: Otvorené projekty
|
|
published: true
|
|
taxonomy:
|
|
category: [info]
|
|
tag: [nn,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
# Otvorené témy záverečných prác
|
|
|
|
Daniel Hládek
|
|
|
|
|
|
## Nápady na projekty
|
|
|
|
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
|
|
- Sumarizácia na súdnych alebo lekárskych dátach.
|
|
- Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu.
|
|
- Spracovanie pomenovaných entít - anonymizácia.
|
|
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
|
|
- Grafové neurónové siete - súdna doména. Alebo Open Data.
|
|
- Zber slovenských dát z webu.
|
|
- Tvorba QA množiny z webu.
|
|
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
|
|
- RWKW - trénvoanie, dotrénovanie
|
|
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
|
|
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
|
|
- LLM Agents - function calling, REACT.
|
|
- reinformcement v LLM - https://huggingface.co/docs/trl/index
|
|
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
|
|
|
|
|
|
## Bakalárske práce
|
|
|
|
Naučíte sa:
|
|
|
|
- niečo o spracovaní prirodzeného jazyka
|
|
- vytvárať webové aplikácie
|
|
- pracovať s nástrojmi v jazyku Python
|
|
- prekonávať technické problémy
|
|
|
|
Požiadavky:
|
|
|
|
- chcieť sa naučiť niečo nové
|
|
|
|
### Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku
|
|
|
|
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku.
|
|
- Vytvorte demonštračnú webovú aplikáciu.
|
|
|
|
### Strojový preklad slovenského jazyka
|
|
|
|
- Zoberte existjúci systém pre strojový preklad.
|
|
- Pripravte existujúci paralelný korpus pre trénovanie.
|
|
- Vytvorte model pre strojový preklad slovenského jazyka.
|
|
|
|
### Rozpoznávanie pomenovaných entít v slovenskom jazyku
|
|
|
|
- Zlepšite model pre rozpoznávanie pomenovaných entít
|
|
- Anotujte korpus, navrhnite lepší klasifikátor.
|
|
|
|
### Vyhľadávač na slovenskom internete
|
|
|
|
- Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
|
|
- Vytvorte webové rozhranie k vyhľadávaču
|
|
|
|
## Diplomové práce
|
|
|
|
Naučíte sa:
|
|
|
|
- Niečo viac o neurónových sieťach.
|
|
- Vytvárať jednoduché programy na úpravu dát.
|
|
- Zapojiť sa do reálneho výskumu.
|
|
|
|
### Morfologická analýza s podporou predtrénovania
|
|
|
|
- Zoberte existujúci model pre morfologickú analýzu slovenského jazyka vyhodnotte ho
|
|
- Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom.
|
|
|
|
### Slovné jednotky v predspracovaní pre strojový preklad
|
|
|
|
- Natrénujte systém pre strojový preklad
|
|
- Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad.
|
|
- Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.
|
|
|
|
|
|
|
|
|
|
|