From 67f20bb84a01d4c4ce2e0d9a39cf87c5b38c28b0 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 3 Jan 2024 09:18:15 +0000 Subject: [PATCH] Update 'pages/students/2018/adrian_remias/README.md' --- pages/students/2018/adrian_remias/README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/pages/students/2018/adrian_remias/README.md b/pages/students/2018/adrian_remias/README.md index 354172f3..78f7b3ac 100644 --- a/pages/students/2018/adrian_remias/README.md +++ b/pages/students/2018/adrian_remias/README.md @@ -28,6 +28,20 @@ Ciele: - Natrénovanie modelu pre opravu iterpunkcie a jeho vyhodnotenie. - Výsledky by mali byť prezentovateľné vo vedeckom článku. +Stretnutie 3.1.2024 + +Stav: + +. Funguje zero shot metóda založená na dopňĺňaní mask tokenu. + +Úlohy: + +1. Vyskúšajte príklad [token classification](https://github.com/huggingface/transformers/tree/main/examples/pytorch/token-classification) z repozitára HF transformers pre úlohu NER alebo POS. Oboznámte sa s argumentami príkazového riadka. +2. Pripravte si trénovacie dáta. Použite formát JSON. Na jeden riadok ide jeden príklad. Príklad je tvorený textom (zoznamom slov) a interpunkciou (zoznam tried). Budete mať súbor train.json a test.json. Na prípravu dátovej množiny si pripravte skript aby to bolo opakovateľné. +3. Spustite skript so svojimi dátami a so slovenským BERTOMN. Nastavte parametre príkazového riadku a formát trénovacej množiny tak aby tomu skript rozumel. +4. Vyskúšajte viaceré experimenty s viacerými rôznymi BERT modelmi s podporou slovenčiny a výžsledky zapíšte do tabuľky. +5. Skúste číselne vyhodnotiť aj Vašu "zero shot" metódu. +- Pokračujte v písaní tectu práce. Stretnutie 7.12.2023