dmytro_ushatenko/pages/students/2019/david_stromp/README.md

216 lines
5.6 KiB
Markdown
Raw Normal View History

2021-09-24 08:58:43 +00:00
---
title: Dávid Stromp
published: true
taxonomy:
category: [bp2022]
tag: [ir,cassandra,nlp,cluster]
author: Maroš Harahus
2021-09-24 08:58:43 +00:00
---
Rok začiatku štúdia: 2019
2021-09-24 08:58:43 +00:00
# Bakalárska práca 2022
Návrh na zadanie:
1. Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
2. Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
3. Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
TO-DO na Diplomovku
Cieľ práce:
- Zlepšiť proces získavania informácií
- Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra.
- Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.
2021-09-24 08:58:43 +00:00
## Bakalársky projekt 2021
Ciele:
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
-
2021-09-24 08:58:43 +00:00
22.8.2022
- Praca skontrolovana pripravena na odovzdanie, treba este poriesit zadavaci list
9.8.2022
- Doplnene grafy z grafany do prace
8.8.2022
- Skontrolovana praca pridane komentare
- Student opravil chyby podla komentarov
3.8.2022
- Poslana praca na kontrolu
1.8.2022
- Prakticka cast hotova
- Dohodnutie sa na pisani praktickej casti
25.7.2022
- 1 Giga týka je takmer nemožné kedže je tam teraz 2 milióby entries ( zápis trval vyše 3 hodin a 2 razy mi plne spadlo spojenie ( preto usudzujem že celonočný zápis nebude veľmi účinný )) a má to len 50 Mb, hladal som softwárové riešenia ktoré by generovali veľké množstvo dát pre cassandru, avšak čo som našiel bolo len na normálnu cassandru a nie na k8ssandru bežiacu na kubernete
25.7.2022
- Vytvoreni script na generovanie udajov
- Skusanie scriptu
- nainstalovana Grafana
22.7.2022
- Testovanie clustra prenasanie suborov atd
8.7.2022
- Stretnutie čo dalej
2.6.2022
- Presuvame pracu na September pretoze nestiahame pravit prenasany predmet
6.5.2022
- Teoreticka praca skontrolovane subezne praca na praktickej casti
8.4.2022
- Práca na teoretickej casti prace
1.4.2022
- Dohodli sme sa ze vynechame Page rank a budeme sa sustredit iba na distribuovane ulozisko
14.3.2022
- Page rank implemetovany, beži ale nie v takej forme aku si prestavujeme
1.3.2022
- Problem pri implementácii page ranku
22.2.2022
- K8ssandra nainštalovaná na virtuálnych strojoch
15.2.2022
- Kubernetes beží na virtualkach. Potreba nainštalovať ešte k8ssandru, dnes
14.2.2022
- Vytvorené ďalšie 4 virtualky na UVT
10.2.2022
- Vytvorená Virtualka na UVT
Stretnutie 18.10.2021
- Nahodený dashboard
- Vygenerovaný token
- Poslane prihlasovacie údaje
Stretnutie 22.10.2021
- cassandra operátor zatiaľ nie je spojazdnený,
- servicy nenabiehajú.
- Pracuje sa na odstránení problému
Stretnutie 27.10.2021
- Error standard_init_linux.go:228: exec user process caused: exec format error
Stretnutie 29.10.2021
- Poslaný návod na k8ssandru
- Snaha odstránení problému
Stretnutie 8.11.2021
- Na novo inštalácia k8s cluster
- Vyskúšanie staršej verzie k8s
prvý je ten že ten reaper operator s cass operatorom nesúvisí až tak úplne,
a druhý je ten že aj keď staršia verzia k8ssandry opravila cass-operaotr, tak reaper-operator stále je v crashloope, takže to celé nefunguje,
Stretnutie 12.11.2021
Poslaná teória
Stretnutie 28.11.2021
- Prechod na virtulky virtual box
Stretnutie 3.12.2021
- nechce fungovať DNS resolving,
- pracuje s ana odstranieni problem
Stretnutie 4.12.2021
- k8ssandra rozbehaná,
16.12.2021
- Zhodnotenie výsledkom
- Dohodnutie sa na teórii a odovzdaní
Stretnutie 19.01.2022
- Uvažovanie o možnosti virtualizie na UVT
- Ďalšie kroky
Stretnutie 23.1.2022
- Písanie teórie
- Poslanie prezentácie na pred obhajoby
Stretnutie 15.10
- Rozbehaný dashboard
- Vytvorenie účtu
- Pridanie ďalších raspberry pi
- Predstavenie dashboardu
Úlohy na ďalší týždeň:
- Nainštalovanie Casasndry
- Prepojenie s databázou
Stretnutie 08.10
- Preinštalovanie kubernetes
- Nainštalovanie Casasndry
- Spravená časť osnovy
- Prepojenie s databázou
Úlohy na ďalší týždeň:
- Sfunkčnite k8s dashboard
- Nainštalovať všetky potrebne veci
Stretnutie 01.10.
- Minikube funguje na vlastnom počítací
- Pripravené relevantné poznámky k bakalárskej práci
- Získaný prístup k RaspberryPi klastru
Úlohy na ďalší týždeň:
- Sfunkčnite Casasndra operator (K8ssandra)
- Sfunkčnite k8s dashboard
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
- pošlite osnovu k bakalárskej práci a relevantný text (stačí aj v poznámkovom bloku)
2021-09-24 08:58:43 +00:00
Stretnutie 24.9.
Úlohy:
- Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
- Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
- Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
Zásobník úloh:
- Rozbehať crawler Websucker s Cassandrou.
- Implementovať PageRank.
- Napísať skript na indexovanie pomocou ElasticSearch.
Stretnutie 10.9.
Úlohy:
- Nainštalovať databázu Cassandra - Využite Docker.
- Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
- Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
- Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.