From a9ed0f3a0445625a8298e8a7f35a8ff6ad60f97c Mon Sep 17 00:00:00 2001 From: Michal Stromko Date: Wed, 28 Dec 2022 20:56:31 +0000 Subject: [PATCH] Update 'pages/students/2019/michal_stromko/vp2023/Dokumentacia.md' --- .../michal_stromko/vp2023/Dokumentacia.md | 20 +++++++++++++++++-- 1 file changed, 18 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md index 4a9b4676..933c2e82 100644 --- a/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md +++ b/pages/students/2019/michal_stromko/vp2023/Dokumentacia.md @@ -55,7 +55,8 @@ Poznáme tri typy negatívnych odpovedí: ### Sentence Transformers - je Python framework -- dokázeme vypočítať Embeddingy vo vyše 100 jazykoch a dajú sa použíť +- dokázeme vypočítať Embeddingy vo vyše 100 jazykoch a dajú sa použíť na bežné úlohy ako napríklad semantic text similarity, sementic search, paraphrase mining +- framework je založený na PyTorch a Transformers a ponúka veľkú zbierku predtrénovyných modelov, ktoré sú vyladené pre rôzdne úlohy ### Semantic Search @@ -63,6 +64,19 @@ Poznáme tri typy negatívnych odpovedí: ### Word Embedding +Požívanie Word Embedings závisí od dobre vypočítaných Embedingov. Pokiaľ máme dobre vypočítané Embeddingy dokážeme veľmi jednoducho dostávať správne odpovede napríklad pri vyhľadávaní. Word Embedding môžeme poznať aj pod slovným spojením ako distribuovaná reprezentácia slov. Dokážeme pomocou neho zachytiť sémantické aj systaktické informácie o slovách z veľkého neoznačeného korpusu. + +Word Emedding používa tri kritické komponenty pri trénovaní a to model, korpus a trénovacie parametre. Aby sme mohli navrhnút efektívne word-embedding metódy je potrebné na začiatku objasniť konštrukciu modelu. Takmer všetky metódy trénovania word embeddings sú založené na rovnakej distribučnej hypotéze: **Slové, ktoré sa vyskytujú v podobných kontextoch, majú tendenciu mať podobné významy** + +Vzhľadom na vyšie napísanú hypotézu rôzne metódy modelujú vzťah medzi cieľovým slovom _w_ a jeho kontextom _c_ v korpuse s rôzymi spôsobmi, pričom _w_ a _c_ sú vložené do vektorov. Vo všeobecnosti môžeme povedať, že existujúce metódy sa líšia v dvoch hlavných aspektoch modelu konštrukcii a to **vzťah medzi cieľovým slovom a jeho kontextom a reprezentácia kontextu** + +Treba brať na vedomie, že trénovanie presných word embeddingov silne, inak povedané výrazne súvisí s tréningovým korpusom. Rôzne tréningové korpusy s rôznou veľkosťou a pochádzajúcej z rôzdnej oblasti môžu výrazne ovplyvniť konečné výsledky. + +Nakoniec presné trénovanie word embeddingov silne závisí od parametrov akými sú: +- počet iterácii +- dimenzionalita embeddingov + + ### Semantic Search ### BM25 @@ -73,4 +87,6 @@ Poznáme tri typy negatívnych odpovedí: ### LABSE -### Slovak BERT \ No newline at end of file +### Slovak BERT + +Bol uvedený pre širokú verejnosť v roku 2021 \ No newline at end of file