diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index ead80c7726..920963c3ad 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -12,6 +12,13 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 +Nové zadanie: + +Chceme vytvoriť asistenta pre farmaceuta alebo zákazníka lekárne pre vyhľadávanie v príbalových letákoch. + + +Staré zadanie: + Vyhľadávanie právnych informácií pomocou neurónových sietí - Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. @@ -30,6 +37,20 @@ Stav: - ElasticSearch Python API - vlastný skript na indexovanie pomocou SBERT +Úlohy: + +- vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie. Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. +- Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). +- Dáta dodá Kristián Sopkovič - cez Teams sa spojte. +- Pokračujte v štúdiu Python, Transformers. Oboznámte sa s LangChain. +- Prečítajte si tento článok https://arxiv.org/abs/1908.10084 a urobte si poznámky. + +Zásobník úloh: + +- Urobte množinu na vhodnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. +- Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. + + Stretnutie 26.4.2024 Úlohy: