forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			216 lines
		
	
	
		
			5.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			216 lines
		
	
	
		
			5.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Dávid Stromp
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [bp2022]
 | 
						|
    tag: [ir,cassandra,nlp,cluster]
 | 
						|
    author: Maroš Harahus
 | 
						|
---
 | 
						|
Rok začiatku štúdia: 2019
 | 
						|
 | 
						|
# Bakalárska práca 2022
 | 
						|
 | 
						|
Návrh na zadanie:
 | 
						|
 | 
						|
1. Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
 | 
						|
2. Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
 | 
						|
3. Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
 | 
						|
4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
 | 
						|
5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
 | 
						|
 | 
						|
TO-DO na Diplomovku
 | 
						|
Cieľ práce:
 | 
						|
 | 
						|
- Zlepšiť proces získavania informácií
 | 
						|
- Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra. 
 | 
						|
- Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.
 | 
						|
 | 
						|
## Bakalársky projekt 2021
 | 
						|
 | 
						|
Ciele:
 | 
						|
 | 
						|
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
 | 
						|
- 
 | 
						|
 | 
						|
22.8.2022
 | 
						|
- Praca skontrolovana pripravena na odovzdanie, treba este poriesit zadavaci list
 | 
						|
 
 | 
						|
 | 
						|
9.8.2022
 | 
						|
- Doplnene grafy z grafany do prace
 | 
						|
 | 
						|
8.8.2022
 | 
						|
- Skontrolovana praca pridane komentare
 | 
						|
- Student opravil chyby podla komentarov
 | 
						|
 | 
						|
3.8.2022
 | 
						|
- Poslana praca na kontrolu 
 | 
						|
 | 
						|
1.8.2022
 | 
						|
- Prakticka cast hotova
 | 
						|
- Dohodnutie sa na pisani praktickej casti
 | 
						|
 | 
						|
25.7.2022
 | 
						|
-  1 Giga týka je takmer nemožné kedže je tam teraz 2 milióby entries ( zápis trval vyše 3 hodin a 2 razy mi plne spadlo spojenie ( preto usudzujem že celonočný zápis nebude veľmi účinný )) a má to len 50 Mb, hladal som softwárové riešenia ktoré by generovali veľké množstvo dát pre cassandru, avšak čo som našiel bolo len na normálnu cassandru a nie na k8ssandru bežiacu na kubernete
 | 
						|
 | 
						|
25.7.2022
 | 
						|
- Vytvoreni script na generovanie udajov
 | 
						|
- Skusanie scriptu 
 | 
						|
- nainstalovana Grafana
 | 
						|
 | 
						|
 | 
						|
22.7.2022
 | 
						|
- Testovanie clustra prenasanie suborov atd
 | 
						|
 | 
						|
8.7.2022
 | 
						|
- Stretnutie čo dalej
 | 
						|
 | 
						|
2.6.2022
 | 
						|
- Presuvame pracu na September pretoze nestiahame pravit prenasany predmet
 | 
						|
 | 
						|
6.5.2022
 | 
						|
- Teoreticka praca skontrolovane subezne praca na praktickej casti
 | 
						|
 | 
						|
8.4.2022
 | 
						|
- Práca na teoretickej casti prace
 | 
						|
 | 
						|
 | 
						|
1.4.2022
 | 
						|
- Dohodli sme sa ze vynechame Page rank a budeme sa sustredit iba na distribuovane ulozisko
 | 
						|
 | 
						|
14.3.2022
 | 
						|
- Page rank implemetovany, beži ale nie v takej forme aku si prestavujeme
 | 
						|
 | 
						|
1.3.2022
 | 
						|
- Problem pri implementácii page ranku
 | 
						|
 | 
						|
22.2.2022
 | 
						|
- K8ssandra nainštalovaná na virtuálnych strojoch
 | 
						|
 | 
						|
15.2.2022
 | 
						|
- Kubernetes beží na virtualkach. Potreba nainštalovať ešte  k8ssandru, dnes 
 | 
						|
 | 
						|
14.2.2022
 | 
						|
- Vytvorené ďalšie 4 virtualky na UVT
 | 
						|
 | 
						|
10.2.2022
 | 
						|
- Vytvorená Virtualka na UVT
 | 
						|
 | 
						|
 | 
						|
Stretnutie  18.10.2021
 | 
						|
- Nahodený dashboard
 | 
						|
- Vygenerovaný token
 | 
						|
- Poslane prihlasovacie údaje
 | 
						|
 | 
						|
Stretnutie  22.10.2021
 | 
						|
- cassandra operátor zatiaľ nie je spojazdnený, 
 | 
						|
- servicy nenabiehajú.
 | 
						|
- Pracuje sa na odstránení problému
 | 
						|
 | 
						|
Stretnutie  27.10.2021
 | 
						|
- Error  standard_init_linux.go:228: exec user process caused: exec format error
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie  29.10.2021
 | 
						|
- Poslaný návod na k8ssandru 
 | 
						|
- Snaha odstránení problému
 | 
						|
 | 
						|
 | 
						|
Stretnutie  8.11.2021
 | 
						|
- Na novo inštalácia k8s cluster 
 | 
						|
- Vyskúšanie staršej verzie k8s
 | 
						|
prvý je ten že ten reaper operator s cass operatorom nesúvisí až tak úplne,
 | 
						|
 a druhý je ten že aj keď staršia verzia k8ssandry opravila cass-operaotr, tak reaper-operator stále je v crashloope, takže to celé nefunguje,
 | 
						|
 | 
						|
Stretnutie 12.11.2021
 | 
						|
Poslaná teória
 | 
						|
 | 
						|
Stretnutie 28.11.2021
 | 
						|
- Prechod na virtulky virtual box
 | 
						|
 | 
						|
Stretnutie 3.12.2021
 | 
						|
- nechce fungovať DNS resolving,
 | 
						|
- pracuje s ana odstranieni problem 
 | 
						|
 | 
						|
Stretnutie 4.12.2021
 | 
						|
- k8ssandra rozbehaná,
 | 
						|
 | 
						|
16.12.2021
 | 
						|
- Zhodnotenie výsledkom 
 | 
						|
- Dohodnutie sa na teórii a odovzdaní
 | 
						|
 | 
						|
Stretnutie 19.01.2022
 | 
						|
- Uvažovanie o možnosti virtualizie na UVT
 | 
						|
- Ďalšie kroky
 | 
						|
 | 
						|
Stretnutie 23.1.2022
 | 
						|
- Písanie teórie 
 | 
						|
- Poslanie prezentácie na pred obhajoby
 | 
						|
 | 
						|
 | 
						|
Stretnutie 15.10
 | 
						|
- Rozbehaný dashboard
 | 
						|
- Vytvorenie účtu
 | 
						|
- Pridanie ďalších raspberry pi
 | 
						|
- Predstavenie dashboardu
 | 
						|
 | 
						|
 | 
						|
Úlohy na ďalší týždeň:
 | 
						|
- Nainštalovanie Casasndry
 | 
						|
- Prepojenie s databázou
 | 
						|
 | 
						|
Stretnutie 08.10
 | 
						|
 | 
						|
- Preinštalovanie kubernetes
 | 
						|
- Nainštalovanie Casasndry
 | 
						|
- Spravená časť osnovy
 | 
						|
- Prepojenie s databázou 
 | 
						|
 | 
						|
Úlohy na ďalší týždeň:
 | 
						|
 | 
						|
- Sfunkčnite k8s dashboard
 | 
						|
- Nainštalovať všetky potrebne veci 
 | 
						|
 | 
						|
 | 
						|
Stretnutie 01.10.
 | 
						|
- Minikube funguje na vlastnom počítací
 | 
						|
- Pripravené relevantné poznámky k bakalárskej práci
 | 
						|
- Získaný prístup k RaspberryPi klastru
 | 
						|
 | 
						|
Úlohy na ďalší týždeň:
 | 
						|
- Sfunkčnite Casasndra operator (K8ssandra)
 | 
						|
- Sfunkčnite k8s dashboard
 | 
						|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
 | 
						|
- pošlite osnovu k bakalárskej práci a relevantný text (stačí aj v poznámkovom bloku)
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie 24.9.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
 | 
						|
- Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
 | 
						|
- Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
 | 
						|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Rozbehať crawler Websucker s Cassandrou.
 | 
						|
- Implementovať PageRank.
 | 
						|
- Napísať skript na indexovanie pomocou ElasticSearch.
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie 10.9.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Nainštalovať databázu Cassandra - Využite Docker.
 | 
						|
- Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
 | 
						|
- Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
 | 
						|
- Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.
 | 
						|
 | 
						|
 |