dmytro_ushatenko/pages/students/2020/pavol_hudak/README.md

1.6 KiB

title published taxonomy
Pavol Hudák true
category tag author
dp2025
ir
Daniel Hladek

rok začiatku štúdia: 2020

Diplomová práca 2025

Ciel:

Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.

Vybrať jednu z úloh:

  • Tvorba instruct datasetu - Anotácia alebo preklad množín
  • Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
  • Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)

Stretnutie 23.2.

Stav:

  • Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
  • Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

  • Pokračujte v štúdiu podľa otvorených úloh.
  • Nainštalujte a vyskúšajte softvér PrivateGPT.
  • Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

  • Nainštalujte a vyskúšajte balíček LangChain.
  • Zistite čo je to metóda PEFT - LORA.
  • Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
  • Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.

Stretnutie 14.2.

Úlohy:

  • Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
  • Nainštalujte si Anaconda.
  • [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
  • Nainštalujte si knižnicu Huggingface Transformers.
  • Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
  • Prejdite si tento tutoriál https://huggingface.co/blog/llama2