zpwiki/pages/topics/otvorene
2025-01-21 13:08:59 +01:00
..
README.md zz 2025-01-21 13:08:59 +01:00

title published taxonomy
Otvorené projekty true
category tag author
info
nn
nlp
Daniel Hladek

Otvorené témy záverečných prác

Daniel Hládek

Nápady na projekty

  • Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
  • Sumarizácia na súdnych alebo lekárskych dátach.
  • Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT.
  • Spracovanie pomenovaných entít - anonymizácia.
  • Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
  • Grafové neurónové siete - súdna doména. Alebo Open Data.
  • Zber slovenských dát z webu.
  • Tvorba QA množiny z webu.
  • Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
  • RWKW - trénvoanie, dotrénovanie
  • Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
  • LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
  • LLM Agents - function calling, REACT.
  • reinformcement v LLM - https://huggingface.co/docs/trl/index
  • Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
  • Model distilation.
  • Skript pre generovanie "gramatických chýb".

Bakalárske práce

Naučíte sa:

  • niečo o spracovaní prirodzeného jazyka
  • vytvárať webové aplikácie
  • pracovať s nástrojmi v jazyku Python
  • prekonávať technické problémy

Požiadavky:

  • chcieť sa naučiť niečo nové

Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku

  • Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku.
  • Vytvorte demonštračnú webovú aplikáciu.

Strojový preklad slovenského jazyka

  • Zoberte existjúci systém pre strojový preklad.
  • Pripravte existujúci paralelný korpus pre trénovanie.
  • Vytvorte model pre strojový preklad slovenského jazyka.

Rozpoznávanie pomenovaných entít v slovenskom jazyku

  • Zlepšite model pre rozpoznávanie pomenovaných entít
  • Anotujte korpus, navrhnite lepší klasifikátor.

Vyhľadávač na slovenskom internete

  • Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
  • Vytvorte webové rozhranie k vyhľadávaču

Diplomové práce

Naučíte sa:

  • Niečo viac o neurónových sieťach.
  • Vytvárať jednoduché programy na úpravu dát.
  • Zapojiť sa do reálneho výskumu.

Morfologická analýza s podporou predtrénovania

  • Zoberte existujúci model pre morfologickú analýzu slovenského jazyka vyhodnotte ho
  • Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom.

Slovné jednotky v predspracovaní pre strojový preklad

  • Natrénujte systém pre strojový preklad
  • Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad.
  • Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.