---
title: Kamil Tomčufčík
published: true
taxonomy:
category: [dp2025]
tag: [lm]
author: Daniel Hladek
---

rok začiatku štúdia: 2020

# Diplomová práca 2025

Ciel:

Overiť a zlepšiť možnosti generovania jednotkových testov

Stretnutie 14.11. 2924

Stav:

- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest.
- Rozčítané knihy podľa pokynov.

Úlohy:

Zistite odpovede na tieto otázky:
- Ako zistíme, že vygenerovaný kód je dobrý.
- Ako zistíme, že vygenerovaný test vyhovuje špecifikácii?

- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odb orné článkyl. Odborné články nájdete na google scholar alebo scopus.
- Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu., Možno vybrať exsitujúci open source projekt alebo hotovú dátovú množinu.
- Vyskúšajte niekoľko jazkovych modelov pre generovanie kódu aj generovanie testov.
- Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach.

Zásobník úloh:

- Dotrénujte model pre lepšie generovansie testov.

Stretnutie online 5.2.2024:

Úlohy:

- Nainštalujte si prostredie Anaconda, pozrite si knihu https://diveintopython3.net/
Dive Into Python 3
- pre úvod do neurónových sietí si prečítajte knihu https://d2l.ai/index.html Dive into Deep Learning — Dive into Deep Learning 1.0.3 documentation
- vyskúšajte viac modelov pre generovanie kódu. Codex, Copilot, ChatGPT
- zistite ako funguje veľký jazykový model

Zásobník úloh (zadanie na ďalšie stretnutie):

- Zistite zoznam open source modelov pre generovanie kódu a porovnajte ich možnosti. Zoznam zapíšte do textového súboru.
- Vyberte si jeden z modelov na generovanie kódu, nainštalujte si ho a vyskúšajte.
- Zistite, ako sa číselne vyjadrí kvalita generovania počítačového kódu. Aké metriky sa používajú? Zistie aké trénovacie a vyhodnocovacie množiny sa používaju. Zoznam zapíšte do súboru.
- Zistite, ako sa dá taký model "dotrénovať" na špecifickú úlohu generovania testov.