Update 'pages/students/2018/adrian_remias/README.md'

This commit is contained in:
dano 2023-12-07 08:56:48 +00:00
parent b79f78cc8e
commit eb4f8def32

View File

@ -34,8 +34,37 @@ Stretnutie 7.12.2023
Stav:
- Vytvorený program na trénovanie neurónovej siete. Masked language modeling skript run_mlm.py. Roberta for Masked LM DataCollatorForLanguageModelling.
- Navrhnutý skript pridáva mask token medzi slová a sleduje, čo doplní model. Časť s trénovaním je v tomto prípade zbytočná.
Úlohy:
- Vyhoddnotte prenosť Vami navrhnutého prístupu. Mali by ste zostaviť kontingenčnú tabuľku. (confusion matrix). Tabuľka má na jednej osi očakávané hodnoty a na druhej osi skutočné hodnoty. https://www.analyticsvidhya.com/blog/2020/09/precision-recall-machine-learning/
- O spôsobe vyhodnotenia môžete napísať aj krátku podkapitolu.
- Uvedte zdroje odkiaľ ste čerpali pri tvorbe.
```
Pôvodný text: Dnes je pekný deň .
Opravený text Dnes , je pekný deň .
. , ? ! x toto dáva sieť
. 2 1 0 0 0
,
?
!
x 1 1
očakávané hodnoty
```
Zásobník úloh:
- Dotrénujte neurónovú sieť na úlohu dopňlňania interpunkcie. Úloha je formulovaná ako "klasifikácia postupností" a je podobná úlohám "part of speech tagging" alebo "named entity recognition".
Takto by mala vyzerať trénovacia množina.
```
x x x . , x x .
Dnes je pekný den Povedala že ostane doma
```
Stretnutie 23.11.2023
@ -46,7 +75,7 @@ Stav:
Úlohy:
- Podrobne sa oboznámte https://github.com/xashru/punctuation-restoration/tree/master . Prečítajte si
- [ ] Podrobne sa oboznámte https://github.com/xashru/punctuation-restoration/tree/master . Prečítajte si
článok. Urobte si poznámky čo ste sa dozvedeli. Zistite, aké metódy iné sa používajú na PR a aká metóda je v článku. Zistitie, ako to súvisí s Modelom BERT.
- Pohľadajte iný podobný repozitár.
- Získajte zdrojové kódy a spustite experimenty v naglickom a bangla jazyku s dátami dodanými v repozitári. Oboznámte sa so zdrojovými kódmi a skúste pochopiť ktorá časť robí čo.