forked from KEMT/zpwiki
		
	Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						906510a66f
					
				| @ -23,6 +23,24 @@ Final Tasks: | ||||
| - [Machine translate](https://huggingface.co/google/madlad400-3b-mt) an SBERT evaluation set for multiple slavic languages. | ||||
| - Write a short scientific paper with results. | ||||
| 
 | ||||
| Meeting 3.10.: | ||||
| 
 | ||||
| State: | ||||
| 
 | ||||
| - Prepared a pull request for Retrieval SK Quad. | ||||
| - Prepared a pull request for Hate Speech Slovak. | ||||
| 
 | ||||
| Tasks: | ||||
| 
 | ||||
| - Make the pull request compatible with the MTEB Contribution guidelines. Discuss it when it is done. | ||||
| - Submit pull requests to MTEB project. | ||||
| - Machine Translate a database (HotpotQA, DB Pedia, FEVER) . Pick a database that is short, because translation might be slow. | ||||
| 
 | ||||
| Non priority tasks: | ||||
| 
 | ||||
| - Prepare databse  and subnit it to HuggingFace Hub. | ||||
| - Prepare a MTEB PR for the databse. | ||||
| 
 | ||||
| Meeting 3.9: | ||||
| 
 | ||||
| State: Studied MTEB framework and transformers. | ||||
|  | ||||
| @ -28,6 +28,21 @@ Ciel: | ||||
| 
 | ||||
| Spolupráca Michal Stromko, Kristián Sopkovič. | ||||
| 
 | ||||
| Stretnutie 27.9.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Urobené vyhľadávanie Milvus, odstavce sú v sqlite. | ||||
| - Indexovanie je v osobitnom skripte. | ||||
| - Urobené web rozhranie pomocou Flask. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Na indexovanie používajte server quadro - 4 GPU karty 1080 12GB RAM. Prístup dá vedúci. Skript upravte tak, aby používal všetky 4 karty. Urobte meranie o koľko sa zrýchlylo spracovanie.  Prihlásite sa ccez SSH `filip@quadro.kemt.fei.tuke.sk` . Server je dostupn7 iba cez VPN. Vytvoríte si prostredie Anaconda. Dlhý skript pustíte pomocou screen alebo tmux. | ||||
| - Na RPI klaster k8s urobte paralelný deployment Milvus a mongodb aj webové rozhranie. | ||||
| - Pokračujte v štúdiu LangChain. | ||||
| - Pokračujte v písaní - sentence transformers, retrieval augmented generation, distributed database.   | ||||
| 
 | ||||
| Stretnutie 23.7.2024 | ||||
| 
 | ||||
| Stav: | ||||
|  | ||||
| @ -22,6 +22,14 @@ Korekcia textu pomocou neurónových sietí | ||||
| -    Aplikujte existujúci model na opravu textu vo vybraných úlohách. | ||||
| -    Vyhodnnotte model pomocou overovacej množiny. | ||||
| 
 | ||||
| Stretnutie 3.10.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku. | ||||
| - Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť. | ||||
| 
 | ||||
| 
 | ||||
| Online update 4.9.2024 | ||||
| 
 | ||||
| Úlohy: | ||||
|  | ||||
| @ -12,6 +12,13 @@ rok začiatku štúdia: 2022 | ||||
| 
 | ||||
| # Bakalárska práca 2025 | ||||
| 
 | ||||
| Nové zadanie: | ||||
| 
 | ||||
| Chceme vytvoriť asistenta pre farmaceuta alebo zákazníka lekárne pre vyhľadávanie v príbalových letákoch. | ||||
| 
 | ||||
| 
 | ||||
| Staré zadanie: | ||||
| 
 | ||||
| Vyhľadávanie právnych informácií pomocou neurónových sietí | ||||
| 
 | ||||
| -    Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. | ||||
| @ -20,8 +27,55 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí | ||||
| -    Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie. | ||||
| 
 | ||||
| 
 | ||||
| RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation | ||||
| RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | ||||
| 
 | ||||
| 27.9.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Vyskúšané generatívne modely - OpenAI aj HuggingFace Prakticky sú nepoužiteľné, kvôli tomu, že chybné požiadavky míňajú kredit. Kreditu je málo na deň. | ||||
| - Výskúšaný Slovenský Mistral "slovak-nlp/mistral-sk-7b". Výskúšané cez API skript. | ||||
| - Nainštalovaný PrivateGPT. Zaindexovaná databáza liekov cez ElasticSearch a implementovaný RAG s modelom Slovak Mistral. Funguje to celkom dobre na dopyt o bolesti hlavy. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v štúdiu LangChain. Prejdite si tutoriály. | ||||
| - Čítajte články a robte si poznámky. Pozrite si článok o modeli Mistral, o sentence transformeroch, aj o "retrieval augmented generation". Na vyhľadanie článku použite google scholar. | ||||
| - Vytvorte skript pre indexovanie a prípravu dát, dajte ho na git. | ||||
| - Konfiguračné skripty na Privategpt a skripty pre prípravu dát dajte na git repozitár. Na kemt.git.fei.tuke.sk. Skripty by mali byť opakovateľné. | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Lepšie pripraviť dáta. Bude treba vyradiť lieky pre zvieratá. Texty bude treba predpripraviť. O lieku bude treba zistiť metainformácie. Bude treba vyznačiť, či je liek na lekársky predpis alebo nie. | ||||
| - Model bude treba dotrénovať na inštrukcie, použiť databázu Slovak Alpaca. | ||||
| - Pripraviť "inteligentného agenta" pre vyhľadávanie, aby sa vedel spýtať dolnňujúce otázky. Prečítajte si článok o ReACT. | ||||
| - Pripraviť vlastné webové rozhranie a backend LangChain. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 18.9.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Vyskúšaný model bioBERT, cez Transformers, Anaconda na malom datasete na notebooku | ||||
| - ElasticSearch Python API | ||||
| - vlastný skript na indexovanie pomocou SBERT | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie.  Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. | ||||
| - Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). | ||||
| - Urobte si lokálnu inštaláciu PrivateGPT na Vašom notebooku. Zmente konfiguráciu - modely a prompty | ||||
| - Dáta dodá Kristián Sopkovič - cez Teams sa spojte. | ||||
| - Pokračujte v štúdiu Python, Transformers.  Oboznámte sa s LangChain. | ||||
| - Prečítajte si tento článok https://arxiv.org/abs/1908.10084 o sentence transformers a urobte si poznámky. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Urobte množinu na vyhdnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. | ||||
| - Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. | ||||
| - Preskúmať využitie Knowledge Graph pre spracovanie medicínskych dát. | ||||
| 
 | ||||
| Stretnutie 26.4.2024 | ||||
| 
 | ||||
|  | ||||
| @ -25,17 +25,26 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. | ||||
| - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. | ||||
| - Aplikujte existujúci model na úlohu detekcie nenávistnej reči.  | ||||
| - Na adaptáciu použite "prompting" a "LORA". | ||||
| - Vyhodnotte model pomocou overovacej množiny. | ||||
| - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). | ||||
| c | ||||
| 
 | ||||
| Stretnutie 3.10.2024 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. | ||||
| - Nainštalujte si prostredie Anaconda.  | ||||
| - Prejdite si knihu Dive Deep into Python 3. | ||||
| - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	 | ||||
| - Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. | ||||
| - Oboznámte sa s OPEN AI Python API. | ||||
| - Nainštalujte si prostredie Anaconda.  | ||||
| - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. | ||||
| - Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) | ||||
| 
 | ||||
|  | ||||
| @ -20,8 +20,8 @@ Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. v | ||||
| Nové nápady: | ||||
| 
 | ||||
| - Vytvorte systém pre generovanie otázok o zadanom texte. | ||||
| - Vytvorte umelo generovanú množinu otázok a odpovedí. | ||||
| - Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede. | ||||
| - Vytvorte umelo generovanú množinu otázok a odpovedí o liekoch. | ||||
| - Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede o liekoch. | ||||
| 
 | ||||
| Ako na to: | ||||
| 
 | ||||
| @ -29,8 +29,29 @@ Ako na to: | ||||
| - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.  | ||||
| - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | ||||
| 
 | ||||
| Stretnutie 27.9.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Prezereté repozitáre a články. Napísané poznámky. | ||||
| - Vytvorený prázdny git repozitár. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. | ||||
| - Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. | ||||
| - Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. | ||||
| - Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. | ||||
| - Skripty na dotrénovanie dávajte do GIT repozitára. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik.  | ||||
| - Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. | ||||
| - Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. | ||||
| 
 | ||||
| Staré Úlohy: | ||||
| 
 | ||||
| - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. | ||||
| - Pozrite si repozitár https://github.com/patil-suraj/question_generation | ||||
| - Pozrite si repozitár https://github.com/gauthierdmn/question_generation | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user