216 lines
5.6 KiB
Markdown
216 lines
5.6 KiB
Markdown
---
|
|
title: Dávid Stromp
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2022]
|
|
tag: [ir,cassandra,nlp,cluster]
|
|
author: Maroš Harahus
|
|
---
|
|
Rok začiatku štúdia: 2019
|
|
|
|
# Bakalárska práca 2022
|
|
|
|
Návrh na zadanie:
|
|
|
|
1. Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
|
|
2. Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
|
|
3. Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
|
|
4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
|
|
5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
|
|
|
|
TO-DO na Diplomovku
|
|
Cieľ práce:
|
|
|
|
- Zlepšiť proces získavania informácií
|
|
- Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra.
|
|
- Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.
|
|
|
|
## Bakalársky projekt 2021
|
|
|
|
Ciele:
|
|
|
|
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
|
|
-
|
|
|
|
22.8.2022
|
|
- Praca skontrolovana pripravena na odovzdanie, treba este poriesit zadavaci list
|
|
|
|
|
|
9.8.2022
|
|
- Doplnene grafy z grafany do prace
|
|
|
|
8.8.2022
|
|
- Skontrolovana praca pridane komentare
|
|
- Student opravil chyby podla komentarov
|
|
|
|
3.8.2022
|
|
- Poslana praca na kontrolu
|
|
|
|
1.8.2022
|
|
- Prakticka cast hotova
|
|
- Dohodnutie sa na pisani praktickej casti
|
|
|
|
25.7.2022
|
|
- 1 Giga týka je takmer nemožné kedže je tam teraz 2 milióby entries ( zápis trval vyše 3 hodin a 2 razy mi plne spadlo spojenie ( preto usudzujem že celonočný zápis nebude veľmi účinný )) a má to len 50 Mb, hladal som softwárové riešenia ktoré by generovali veľké množstvo dát pre cassandru, avšak čo som našiel bolo len na normálnu cassandru a nie na k8ssandru bežiacu na kubernete
|
|
|
|
25.7.2022
|
|
- Vytvoreni script na generovanie udajov
|
|
- Skusanie scriptu
|
|
- nainstalovana Grafana
|
|
|
|
|
|
22.7.2022
|
|
- Testovanie clustra prenasanie suborov atd
|
|
|
|
8.7.2022
|
|
- Stretnutie čo dalej
|
|
|
|
2.6.2022
|
|
- Presuvame pracu na September pretoze nestiahame pravit prenasany predmet
|
|
|
|
6.5.2022
|
|
- Teoreticka praca skontrolovane subezne praca na praktickej casti
|
|
|
|
8.4.2022
|
|
- Práca na teoretickej casti prace
|
|
|
|
|
|
1.4.2022
|
|
- Dohodli sme sa ze vynechame Page rank a budeme sa sustredit iba na distribuovane ulozisko
|
|
|
|
14.3.2022
|
|
- Page rank implemetovany, beži ale nie v takej forme aku si prestavujeme
|
|
|
|
1.3.2022
|
|
- Problem pri implementácii page ranku
|
|
|
|
22.2.2022
|
|
- K8ssandra nainštalovaná na virtuálnych strojoch
|
|
|
|
15.2.2022
|
|
- Kubernetes beží na virtualkach. Potreba nainštalovať ešte k8ssandru, dnes
|
|
|
|
14.2.2022
|
|
- Vytvorené ďalšie 4 virtualky na UVT
|
|
|
|
10.2.2022
|
|
- Vytvorená Virtualka na UVT
|
|
|
|
|
|
Stretnutie 18.10.2021
|
|
- Nahodený dashboard
|
|
- Vygenerovaný token
|
|
- Poslane prihlasovacie údaje
|
|
|
|
Stretnutie 22.10.2021
|
|
- cassandra operátor zatiaľ nie je spojazdnený,
|
|
- servicy nenabiehajú.
|
|
- Pracuje sa na odstránení problému
|
|
|
|
Stretnutie 27.10.2021
|
|
- Error standard_init_linux.go:228: exec user process caused: exec format error
|
|
|
|
|
|
|
|
Stretnutie 29.10.2021
|
|
- Poslaný návod na k8ssandru
|
|
- Snaha odstránení problému
|
|
|
|
|
|
Stretnutie 8.11.2021
|
|
- Na novo inštalácia k8s cluster
|
|
- Vyskúšanie staršej verzie k8s
|
|
prvý je ten že ten reaper operator s cass operatorom nesúvisí až tak úplne,
|
|
a druhý je ten že aj keď staršia verzia k8ssandry opravila cass-operaotr, tak reaper-operator stále je v crashloope, takže to celé nefunguje,
|
|
|
|
Stretnutie 12.11.2021
|
|
Poslaná teória
|
|
|
|
Stretnutie 28.11.2021
|
|
- Prechod na virtulky virtual box
|
|
|
|
Stretnutie 3.12.2021
|
|
- nechce fungovať DNS resolving,
|
|
- pracuje s ana odstranieni problem
|
|
|
|
Stretnutie 4.12.2021
|
|
- k8ssandra rozbehaná,
|
|
|
|
16.12.2021
|
|
- Zhodnotenie výsledkom
|
|
- Dohodnutie sa na teórii a odovzdaní
|
|
|
|
Stretnutie 19.01.2022
|
|
- Uvažovanie o možnosti virtualizie na UVT
|
|
- Ďalšie kroky
|
|
|
|
Stretnutie 23.1.2022
|
|
- Písanie teórie
|
|
- Poslanie prezentácie na pred obhajoby
|
|
|
|
|
|
Stretnutie 15.10
|
|
- Rozbehaný dashboard
|
|
- Vytvorenie účtu
|
|
- Pridanie ďalších raspberry pi
|
|
- Predstavenie dashboardu
|
|
|
|
|
|
Úlohy na ďalší týždeň:
|
|
- Nainštalovanie Casasndry
|
|
- Prepojenie s databázou
|
|
|
|
Stretnutie 08.10
|
|
|
|
- Preinštalovanie kubernetes
|
|
- Nainštalovanie Casasndry
|
|
- Spravená časť osnovy
|
|
- Prepojenie s databázou
|
|
|
|
Úlohy na ďalší týždeň:
|
|
|
|
- Sfunkčnite k8s dashboard
|
|
- Nainštalovať všetky potrebne veci
|
|
|
|
|
|
Stretnutie 01.10.
|
|
- Minikube funguje na vlastnom počítací
|
|
- Pripravené relevantné poznámky k bakalárskej práci
|
|
- Získaný prístup k RaspberryPi klastru
|
|
|
|
Úlohy na ďalší týždeň:
|
|
- Sfunkčnite Casasndra operator (K8ssandra)
|
|
- Sfunkčnite k8s dashboard
|
|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
|
|
- pošlite osnovu k bakalárskej práci a relevantný text (stačí aj v poznámkovom bloku)
|
|
|
|
|
|
|
|
Stretnutie 24.9.
|
|
|
|
Úlohy:
|
|
|
|
- Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
|
|
- Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
|
|
- Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
|
|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Rozbehať crawler Websucker s Cassandrou.
|
|
- Implementovať PageRank.
|
|
- Napísať skript na indexovanie pomocou ElasticSearch.
|
|
|
|
|
|
|
|
Stretnutie 10.9.
|
|
|
|
Úlohy:
|
|
|
|
- Nainštalovať databázu Cassandra - Využite Docker.
|
|
- Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
|
|
- Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
|
|
- Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.
|
|
|
|
|