forked from KEMT/zpwiki
		
	Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						906510a66f
					
				| @ -23,6 +23,24 @@ Final Tasks: | |||||||
| - [Machine translate](https://huggingface.co/google/madlad400-3b-mt) an SBERT evaluation set for multiple slavic languages. | - [Machine translate](https://huggingface.co/google/madlad400-3b-mt) an SBERT evaluation set for multiple slavic languages. | ||||||
| - Write a short scientific paper with results. | - Write a short scientific paper with results. | ||||||
| 
 | 
 | ||||||
|  | Meeting 3.10.: | ||||||
|  | 
 | ||||||
|  | State: | ||||||
|  | 
 | ||||||
|  | - Prepared a pull request for Retrieval SK Quad. | ||||||
|  | - Prepared a pull request for Hate Speech Slovak. | ||||||
|  | 
 | ||||||
|  | Tasks: | ||||||
|  | 
 | ||||||
|  | - Make the pull request compatible with the MTEB Contribution guidelines. Discuss it when it is done. | ||||||
|  | - Submit pull requests to MTEB project. | ||||||
|  | - Machine Translate a database (HotpotQA, DB Pedia, FEVER) . Pick a database that is short, because translation might be slow. | ||||||
|  | 
 | ||||||
|  | Non priority tasks: | ||||||
|  | 
 | ||||||
|  | - Prepare databse  and subnit it to HuggingFace Hub. | ||||||
|  | - Prepare a MTEB PR for the databse. | ||||||
|  | 
 | ||||||
| Meeting 3.9: | Meeting 3.9: | ||||||
| 
 | 
 | ||||||
| State: Studied MTEB framework and transformers. | State: Studied MTEB framework and transformers. | ||||||
|  | |||||||
| @ -28,6 +28,21 @@ Ciel: | |||||||
| 
 | 
 | ||||||
| Spolupráca Michal Stromko, Kristián Sopkovič. | Spolupráca Michal Stromko, Kristián Sopkovič. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 27.9.2024 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Urobené vyhľadávanie Milvus, odstavce sú v sqlite. | ||||||
|  | - Indexovanie je v osobitnom skripte. | ||||||
|  | - Urobené web rozhranie pomocou Flask. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Na indexovanie používajte server quadro - 4 GPU karty 1080 12GB RAM. Prístup dá vedúci. Skript upravte tak, aby používal všetky 4 karty. Urobte meranie o koľko sa zrýchlylo spracovanie.  Prihlásite sa ccez SSH `filip@quadro.kemt.fei.tuke.sk` . Server je dostupn7 iba cez VPN. Vytvoríte si prostredie Anaconda. Dlhý skript pustíte pomocou screen alebo tmux. | ||||||
|  | - Na RPI klaster k8s urobte paralelný deployment Milvus a mongodb aj webové rozhranie. | ||||||
|  | - Pokračujte v štúdiu LangChain. | ||||||
|  | - Pokračujte v písaní - sentence transformers, retrieval augmented generation, distributed database.   | ||||||
|  | 
 | ||||||
| Stretnutie 23.7.2024 | Stretnutie 23.7.2024 | ||||||
| 
 | 
 | ||||||
| Stav: | Stav: | ||||||
|  | |||||||
| @ -22,6 +22,14 @@ Korekcia textu pomocou neurónových sietí | |||||||
| -    Aplikujte existujúci model na opravu textu vo vybraných úlohách. | -    Aplikujte existujúci model na opravu textu vo vybraných úlohách. | ||||||
| -    Vyhodnnotte model pomocou overovacej množiny. | -    Vyhodnnotte model pomocou overovacej množiny. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 3.10.2024 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku. | ||||||
|  | - Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| Online update 4.9.2024 | Online update 4.9.2024 | ||||||
| 
 | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
|  | |||||||
| @ -12,6 +12,13 @@ rok začiatku štúdia: 2022 | |||||||
| 
 | 
 | ||||||
| # Bakalárska práca 2025 | # Bakalárska práca 2025 | ||||||
| 
 | 
 | ||||||
|  | Nové zadanie: | ||||||
|  | 
 | ||||||
|  | Chceme vytvoriť asistenta pre farmaceuta alebo zákazníka lekárne pre vyhľadávanie v príbalových letákoch. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Staré zadanie: | ||||||
|  | 
 | ||||||
| Vyhľadávanie právnych informácií pomocou neurónových sietí | Vyhľadávanie právnych informácií pomocou neurónových sietí | ||||||
| 
 | 
 | ||||||
| -    Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. | -    Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. | ||||||
| @ -20,8 +27,55 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí | |||||||
| -    Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie. | -    Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie. | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation | RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | ||||||
| 
 | 
 | ||||||
|  | 27.9.2024 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Vyskúšané generatívne modely - OpenAI aj HuggingFace Prakticky sú nepoužiteľné, kvôli tomu, že chybné požiadavky míňajú kredit. Kreditu je málo na deň. | ||||||
|  | - Výskúšaný Slovenský Mistral "slovak-nlp/mistral-sk-7b". Výskúšané cez API skript. | ||||||
|  | - Nainštalovaný PrivateGPT. Zaindexovaná databáza liekov cez ElasticSearch a implementovaný RAG s modelom Slovak Mistral. Funguje to celkom dobre na dopyt o bolesti hlavy. | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - Pokračujte v štúdiu LangChain. Prejdite si tutoriály. | ||||||
|  | - Čítajte články a robte si poznámky. Pozrite si článok o modeli Mistral, o sentence transformeroch, aj o "retrieval augmented generation". Na vyhľadanie článku použite google scholar. | ||||||
|  | - Vytvorte skript pre indexovanie a prípravu dát, dajte ho na git. | ||||||
|  | - Konfiguračné skripty na Privategpt a skripty pre prípravu dát dajte na git repozitár. Na kemt.git.fei.tuke.sk. Skripty by mali byť opakovateľné. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Lepšie pripraviť dáta. Bude treba vyradiť lieky pre zvieratá. Texty bude treba predpripraviť. O lieku bude treba zistiť metainformácie. Bude treba vyznačiť, či je liek na lekársky predpis alebo nie. | ||||||
|  | - Model bude treba dotrénovať na inštrukcie, použiť databázu Slovak Alpaca. | ||||||
|  | - Pripraviť "inteligentného agenta" pre vyhľadávanie, aby sa vedel spýtať dolnňujúce otázky. Prečítajte si článok o ReACT. | ||||||
|  | - Pripraviť vlastné webové rozhranie a backend LangChain. | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Stretnutie 18.9.2024 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Vyskúšaný model bioBERT, cez Transformers, Anaconda na malom datasete na notebooku | ||||||
|  | - ElasticSearch Python API | ||||||
|  | - vlastný skript na indexovanie pomocou SBERT | ||||||
|  | 
 | ||||||
|  | Úlohy: | ||||||
|  | 
 | ||||||
|  | - vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie.  Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. | ||||||
|  | - Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). | ||||||
|  | - Urobte si lokálnu inštaláciu PrivateGPT na Vašom notebooku. Zmente konfiguráciu - modely a prompty | ||||||
|  | - Dáta dodá Kristián Sopkovič - cez Teams sa spojte. | ||||||
|  | - Pokračujte v štúdiu Python, Transformers.  Oboznámte sa s LangChain. | ||||||
|  | - Prečítajte si tento článok https://arxiv.org/abs/1908.10084 o sentence transformers a urobte si poznámky. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Urobte množinu na vyhdnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. | ||||||
|  | - Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. | ||||||
|  | - Preskúmať využitie Knowledge Graph pre spracovanie medicínskych dát. | ||||||
| 
 | 
 | ||||||
| Stretnutie 26.4.2024 | Stretnutie 26.4.2024 | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -25,17 +25,26 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. | |||||||
| - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. | - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. | ||||||
| - Aplikujte existujúci model na úlohu detekcie nenávistnej reči.  | - Aplikujte existujúci model na úlohu detekcie nenávistnej reči.  | ||||||
| - Na adaptáciu použite "prompting" a "LORA". | - Na adaptáciu použite "prompting" a "LORA". | ||||||
| - Vyhodnotte model pomocou overovacej množiny. | - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). | ||||||
|  | c | ||||||
|  | 
 | ||||||
|  | Stretnutie 3.10.2024 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
| - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. | - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. | ||||||
| - Nainštalujte si prostredie Anaconda.  |  | ||||||
| - Prejdite si knihu Dive Deep into Python 3. | - Prejdite si knihu Dive Deep into Python 3. | ||||||
| - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	 | - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	 | ||||||
| - Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. | - Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. | ||||||
|  | - Oboznámte sa s OPEN AI Python API. | ||||||
|  | - Nainštalujte si prostredie Anaconda.  | ||||||
| - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. | - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. | ||||||
| - Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely | - Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
| - Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) | - Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) | ||||||
| 
 | 
 | ||||||
|  | |||||||
| @ -20,8 +20,8 @@ Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. v | |||||||
| Nové nápady: | Nové nápady: | ||||||
| 
 | 
 | ||||||
| - Vytvorte systém pre generovanie otázok o zadanom texte. | - Vytvorte systém pre generovanie otázok o zadanom texte. | ||||||
| - Vytvorte umelo generovanú množinu otázok a odpovedí. | - Vytvorte umelo generovanú množinu otázok a odpovedí o liekoch. | ||||||
| - Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede. | - Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede o liekoch. | ||||||
| 
 | 
 | ||||||
| Ako na to: | Ako na to: | ||||||
| 
 | 
 | ||||||
| @ -29,8 +29,29 @@ Ako na to: | |||||||
| - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.  | - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.  | ||||||
| - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | ||||||
| 
 | 
 | ||||||
|  | Stretnutie 27.9.2024 | ||||||
|  | 
 | ||||||
|  | Stav: | ||||||
|  | 
 | ||||||
|  | - Prezereté repozitáre a články. Napísané poznámky. | ||||||
|  | - Vytvorený prázdny git repozitár. | ||||||
|  | 
 | ||||||
| Úlohy: | Úlohy: | ||||||
| 
 | 
 | ||||||
|  | - Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. | ||||||
|  | - Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. | ||||||
|  | - Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. | ||||||
|  | - Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. | ||||||
|  | - Skripty na dotrénovanie dávajte do GIT repozitára. | ||||||
|  | 
 | ||||||
|  | Zásobník úloh: | ||||||
|  | 
 | ||||||
|  | - Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik.  | ||||||
|  | - Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. | ||||||
|  | - Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. | ||||||
|  | 
 | ||||||
|  | Staré Úlohy: | ||||||
|  | 
 | ||||||
| - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. | - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. | ||||||
| - Pozrite si repozitár https://github.com/patil-suraj/question_generation | - Pozrite si repozitár https://github.com/patil-suraj/question_generation | ||||||
| - Pozrite si repozitár https://github.com/gauthierdmn/question_generation | - Pozrite si repozitár https://github.com/gauthierdmn/question_generation | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user