2020-10-01 13:33:21 +00:00
---
title: Ondrej Megela
published: true
taxonomy:
2020-10-02 14:06:48 +00:00
category: [bp2021]
2021-01-21 15:33:35 +00:00
tag: [nlp,fairseq,lm,bert,question-answer,qa]
2020-10-01 13:33:21 +00:00
author: Daniel Hladek
---
2020-09-22 10:46:44 +00:00
# Ondrej Megela
2020-10-02 08:20:56 +00:00
Začiatok štúdia: 2018
2021-01-21 15:42:46 +00:00
Súvisiace stránky:
- [Oleh Bilykh ](/students/2018/bilykh ) - question answering
- [Lukáš Pokrývka ](/students/2016/pokryvka ) - paralelné trénovanie
- [Question Answering ](/topics/question ) - interný projekt
- Matej Čarňanský (BERT)
2020-10-02 08:20:56 +00:00
## Bakalársky projekt 2020
2021-02-09 12:41:52 +00:00
Názov: Neurónové jazykové modelovanie typu BERT.
2020-10-02 08:20:56 +00:00
Návrh na zadanie:
2021-02-12 12:28:11 +00:00
1. Vypracujte prehľad metód jazykového modelovania pomocou neurónových sietí.
2. Vypracujte prehľad aplikácií modelu typu BERT a spôsoby ich vyhodnotenia.
3. Natrénujte jazykový model metódou BERT alebo podobnou.
4. Vyhodnoťte jazykový model a navrhnite zlepšenia presnosti.
2020-11-20 12:09:20 +00:00
2020-11-20 12:32:16 +00:00
Zásobník úloh:
- Cieľom je vedieť natrénovať BERT model a vyhodnotiť ho na zvolenej testovacej množine.
2021-02-12 12:33:40 +00:00
Stretnutie 12.2.
Stav:
- Pokúšame sa vytvoriť hodnotenie pomcou množiny CommonSenseQA
- Problém pri trénovaní na Wiki103 na stroji Quadra, (vyzerá to ako deadlock)
2021-02-12 12:39:06 +00:00
- Máme k dispozícii ROBERTA model natrénovaný na veľkej množine slovenských dát.
2021-02-12 12:33:40 +00:00
Do budúceho stretnutia:
- Problém sa možno dá obísť skopírovaním modelu zo stroja Tesla.
2021-02-12 12:39:06 +00:00
- na kopírovanie použite príkaz `scp -r user@server:zdrojovyadresar cielovyadresar` .
- pokračovať vo vyhodnotení pomocou CommonSenseQA.
- skúste vyhodnotiť aj slovenský model. Ako?
2021-02-12 12:33:40 +00:00
2020-12-18 11:18:30 +00:00
Virtuálne stretnutie 18.12.2020
Stav:
- Natrénovaný model ROBERTA na malej množine Wiki103 podľa tutoriálu. Trénovanie trvalo jeden týždeň.
- Spísané poznámky ku množine SQUAD.
2020-12-18 11:30:53 +00:00
- Vytvorený prístup na server quadra.kemt.fei.tuke.sk
2020-12-18 11:18:30 +00:00
2020-12-18 11:27:33 +00:00
Úlohy:
- Pokračovať v písaní
- Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - cieľom je vedieť vyhodnotiť BERT model.
2020-12-18 11:32:35 +00:00
- Pri trénovaní si overte, či sú využité všetky 4 karty.
- Pozrite si DP [Lukáš Pokrývka ](https://zp.kemt.fei.tuke.sk/students/2016/lukas_pokryvka )
2020-12-18 11:34:14 +00:00
- Ak pôjde trénovanie v poriadku, skúste vykonať viac experimentov s rôznymi parametrami, zapíšte si postup experimetu (príkazový riadok) a výsledok.
2020-12-18 11:27:33 +00:00
2020-12-18 11:18:30 +00:00
2020-12-04 11:33:15 +00:00
Virtuálne stretnutie 4.12.2020
Stav:
2020-12-04 11:40:24 +00:00
2020-12-04 11:33:15 +00:00
- Preštudovaný tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md
- Vyriešený problém s Pytorch.
2020-12-04 11:38:17 +00:00
- Inštalácia [Fairseq ](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/In%C5%A1tal%C3%A1cia-fairseq ) Conda aj Pytorch.
- Chyba optimizéra [Fairseq ](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/Vyrie%C5%A1en%C3%A9-Chyby ) a jej riešenie.
2020-12-04 11:40:24 +00:00
- Vypracované poznámky o trénovaní a vyhodnocovaní BERT.
2020-12-04 11:33:15 +00:00
2020-12-04 11:45:18 +00:00
Úlohy:
- Pokračujte v práci na písomnej časti. Skúste prepísať odrážky do plynulého textu.
- Pridajte poznámky o vyhodnotení pomocou SQUAD.
2020-12-04 11:53:42 +00:00
- Pokračujte v trénovaní Roberta na dátovej sade Wiki-103 na systéme Tesla, odhadovaný čas trénovania 64 hod.
- Zistite ako sa dá vyhodnotiť natrénovaný model Roberta.
- Zvážiť možnosť trénovania na systéme Titan a Quadra (pre vedúceho).
2020-12-04 11:45:18 +00:00
2020-12-04 11:33:15 +00:00
2020-11-20 12:09:20 +00:00
Virtuálne stretnutie 20.11.2020
Stav:
2020-11-20 12:25:24 +00:00
- Urobené tutoriály ale iba na CPU.
Do ďalšieho stretnutia:
- Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md .
2020-11-20 12:32:16 +00:00
- Pracovať na písomnej časti - zamerať sa na vyhodnotenie BERT modelu. Na aké modelové úlohy sa používa?
2020-11-20 12:34:47 +00:00
- Napíšte poznámky, kde všade sa vyskytol technický problém a aké bolo riešenie. Dôležité sú verzie a podmienky pri ktorých sa problém vyskytol.
- Spíšte ako nainštalovať knižnice tak aby to fungovalo (s CPU aj s GPU).
- Vytvorte si na GITe repozitár bp2021, do neho dajte poznámky a kódy ktoré ste vyskúšali.
2020-11-20 12:25:24 +00:00
2020-10-02 08:39:55 +00:00
2020-11-13 09:37:48 +00:00
Virtuálne stretnutie 13.11.2020
Stav:
- Vypracované poznámky aj k transformer a BERT
- Vyskúšaná release verzia Fairseq. Stále trvá technický problém s tutoriálom.
2020-11-20 12:09:20 +00:00
- Vyskúšaný BERT tutoriáli. Chyba "illegal instruction" pri extrahovaní príznakov "extract features from ROBERTA". https://discuss.pytorch.org/t/illegal-instruction-core-dumped-in-first-pytorch-tutorial/62059/3 pravdepodobne problém s inštrukčnou sadou CPU.
2020-11-13 10:07:39 +00:00
- \vytvorený prístup na tesla pre vyriešenie.
2020-11-20 12:09:20 +00:00
Do ďalšieho stretnutia:
2020-11-13 10:07:39 +00:00
2020-11-20 12:09:20 +00:00
- pokračovať v otvorených úlohách.
2020-11-13 09:37:48 +00:00
2020-10-02 08:48:52 +00:00
2020-10-30 09:59:36 +00:00
Virtuálne stretnutie 30.10.2020
Stav:
- Vypracované poznámky k seq2seq
- nainštalovaný Pytorch a fairseq
2020-10-30 10:17:35 +00:00
- problémy s tutoriálom. Riešenie by mohlo byť použitie release verzie 0.9.0, pip install fairseq=0.9.0
2020-11-13 09:37:48 +00:00
Do ďalšieho stretnutia:
2020-10-30 10:17:35 +00:00
- Vyriešte technické porblémy
2020-10-30 10:22:21 +00:00
- prejdide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model
2020-10-30 10:17:35 +00:00
- Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.md alebo podobný.
2020-10-30 10:22:21 +00:00
- Preštudujte si články na tému BERT, urobte si poznámky čo ste sa dozvedeli spolu so zdrojom.
2020-10-30 10:17:35 +00:00
2020-10-30 09:59:36 +00:00
2020-10-16 09:04:08 +00:00
Virtuálne stretnutie 16.10.2020
Stav:
- Vypracované poznámky k uvedeným bodom.
- Problém s inštaláciou Anaconda.
2020-10-16 09:26:37 +00:00
Do ďalieho stretnutia:
- nainštalujte pytorch a knižnicu fairseq
- prejtide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model
- Napíšte ďalšie poznámky ku architektúre encoder-decoder, nájdite najdôležitejšie články a čo hovoria.
2020-10-02 08:39:55 +00:00
Virtuálne stretnutie 2.10.2020
2020-10-02 08:54:05 +00:00
Vytvorený prístup `ssh megela@idoc.fei.tuke.sk`
2020-10-02 08:39:55 +00:00
Úlohy do ďalšieho stretnutia:
- Naštudujte si a vyracujte poznámky s uvedením zdroja:
- spracovanie prirodzeného jazyka
- jazykové modelovanie
- rekurentná neurónová sieť
- architektúra enkóder dekóder alebo seq2seq
2020-10-02 08:43:06 +00:00
- Nainštalujte si prostredie Anaconda, pytorch a knižnicu fairseq
Na štúdium:
https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics
- python
- nlp
2020-10-02 14:06:48 +00:00
- seq2seq