zpwiki/pages/topics/otvorene/README.md

92 lines
3.0 KiB
Markdown
Raw Normal View History

2021-02-03 11:53:03 +00:00
---
title: Otvorené projekty
2021-02-09 15:25:13 +00:00
published: true
taxonomy:
category: [info]
tag: [nn,nlp]
author: Daniel Hladek
---
2021-02-09 16:05:04 +00:00
# Otvorené témy záverečných prác
2021-02-09 16:05:04 +00:00
Daniel Hládek
2021-02-09 15:25:13 +00:00
2025-01-21 12:05:13 +00:00
## Nápady na projekty
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
- Sumarizácia na súdnych alebo lekárskych dátach.
2025-01-21 12:08:59 +00:00
- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT.
2025-01-21 12:05:13 +00:00
- Spracovanie pomenovaných entít - anonymizácia.
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
- Grafové neurónové siete - súdna doména. Alebo Open Data.
- Zber slovenských dát z webu.
- Tvorba QA množiny z webu.
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
- RWKW - trénvoanie, dotrénovanie
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
- LLM Agents - function calling, REACT.
- reinformcement v LLM - https://huggingface.co/docs/trl/index
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
2025-01-21 12:08:59 +00:00
- Model distilation.
- Skript pre generovanie "gramatických chýb".
2025-01-21 12:05:13 +00:00
2021-02-09 16:05:04 +00:00
## Bakalárske práce
Naučíte sa:
- niečo o spracovaní prirodzeného jazyka
- vytvárať webové aplikácie
- pracovať s nástrojmi v jazyku Python
- prekonávať technické problémy
Požiadavky:
- chcieť sa naučiť niečo nové
### Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku.
- Vytvorte demonštračnú webovú aplikáciu.
### Strojový preklad slovenského jazyka
2021-02-09 15:25:13 +00:00
2021-02-09 16:05:04 +00:00
- Zoberte existjúci systém pre strojový preklad.
- Pripravte existujúci paralelný korpus pre trénovanie.
- Vytvorte model pre strojový preklad slovenského jazyka.
2021-02-09 16:05:04 +00:00
### Rozpoznávanie pomenovaných entít v slovenskom jazyku
2021-02-09 15:25:13 +00:00
2021-02-09 16:05:04 +00:00
- Zlepšite model pre rozpoznávanie pomenovaných entít
- Anotujte korpus, navrhnite lepší klasifikátor.
2021-02-09 16:05:04 +00:00
### Vyhľadávač na slovenskom internete
2021-02-09 15:25:13 +00:00
- Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
- Vytvorte webové rozhranie k vyhľadávaču
2021-02-09 16:05:04 +00:00
## Diplomové práce
Naučíte sa:
- Niečo viac o neurónových sieťach.
- Vytvárať jednoduché programy na úpravu dát.
- Zapojiť sa do reálneho výskumu.
### Morfologická analýza s podporou predtrénovania
- Zoberte existujúci model pre morfologickú analýzu slovenského jazyka vyhodnotte ho
- Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom.
### Slovné jednotky v predspracovaní pre strojový preklad
- Natrénujte systém pre strojový preklad
- Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad.
- Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.