From eb4f8def321c00c2fc9c68b49cd3ad51cddee642 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 7 Dec 2023 08:56:48 +0000 Subject: [PATCH] Update 'pages/students/2018/adrian_remias/README.md' --- pages/students/2018/adrian_remias/README.md | 31 ++++++++++++++++++++- 1 file changed, 30 insertions(+), 1 deletion(-) diff --git a/pages/students/2018/adrian_remias/README.md b/pages/students/2018/adrian_remias/README.md index 30fe82edb5..3cc2b5ba6b 100644 --- a/pages/students/2018/adrian_remias/README.md +++ b/pages/students/2018/adrian_remias/README.md @@ -34,8 +34,37 @@ Stretnutie 7.12.2023 Stav: - Vytvorený program na trénovanie neurónovej siete. Masked language modeling skript run_mlm.py. Roberta for Masked LM DataCollatorForLanguageModelling. +- Navrhnutý skript pridáva mask token medzi slová a sleduje, čo doplní model. Časť s trénovaním je v tomto prípade zbytočná. +Úlohy: +- Vyhoddnotte prenosť Vami navrhnutého prístupu. Mali by ste zostaviť kontingenčnú tabuľku. (confusion matrix). Tabuľka má na jednej osi očakávané hodnoty a na druhej osi skutočné hodnoty. https://www.analyticsvidhya.com/blog/2020/09/precision-recall-machine-learning/ +- O spôsobe vyhodnotenia môžete napísať aj krátku podkapitolu. +- Uvedte zdroje odkiaľ ste čerpali pri tvorbe. + +``` + Pôvodný text: Dnes je pekný deň . + Opravený text Dnes , je pekný deň . + + . , ? ! x toto dáva sieť + . 2 1 0 0 0 + , + ? + ! + x 1 1 + očakávané hodnoty +``` + +Zásobník úloh: + +- Dotrénujte neurónovú sieť na úlohu dopňlňania interpunkcie. Úloha je formulovaná ako "klasifikácia postupností" a je podobná úlohám "part of speech tagging" alebo "named entity recognition". + +Takto by mala vyzerať trénovacia množina. + +``` +x x x . , x x . +Dnes je pekný den Povedala že ostane doma +``` Stretnutie 23.11.2023 @@ -46,7 +75,7 @@ Stav: Úlohy: -- Podrobne sa oboznámte https://github.com/xashru/punctuation-restoration/tree/master . Prečítajte si +- [ ] Podrobne sa oboznámte https://github.com/xashru/punctuation-restoration/tree/master . Prečítajte si článok. Urobte si poznámky čo ste sa dozvedeli. Zistite, aké metódy iné sa používajú na PR a aká metóda je v článku. Zistitie, ako to súvisí s Modelom BERT. - Pohľadajte iný podobný repozitár. - Získajte zdrojové kódy a spustite experimenty v naglickom a bangla jazyku s dátami dodanými v repozitári. Oboznámte sa so zdrojovými kódmi a skúste pochopiť ktorá časť robí čo.