zpwiki/pages/students/2019/david_stromp/README.md

2.9 KiB

title published taxonomy
Dávid Stromp true
category tag author
bp2022
ir
cassandra
nlp
cluster
Maroš Harahus

Rok začiatku štúdia: 2019

Bakalárska práca 2022

Návrh na zadanie:

  1. Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
  2. Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
  3. Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
  4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
  5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.

Cieľ práce:

  • Zlepšiť proces získavania informácií
  • Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra.
  • Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.

Bakalársky projekt 2021

Ciele:

  • Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
  • Implementovať algoritmus pre zoradenie (ranking) dokumentov v takejto databáze.

Stretnutie 15.10

  • Rozbehaný dashboard
  • Vytvorenie účtu
  • Pridanie ďalších raspberry pi
  • Predstavenie dashboardu

Úlohy na ďalší týždeň:

  • Nainštalovanie Casasndry
  • Prepojenie s databázou

Stretnutie 08.10

  • Preinštalovanie kubernetes
  • Nainštalovanie Casasndry
  • Spravená časť osnovy
  • Prepojenie s databázou

Úlohy na ďalší týždeň:

  • Sfunkčnite k8s dashboard
  • Nainštalovať všetky potrebne veci

Stretnutie 01.10.

  • Minikube funguje na vlastnom počítací
  • Pripravené relevantné poznámky k bakalárskej práci
  • Získaný prístup k RaspberryPi klastru

Úlohy na ďalší týždeň:

  • Sfunkčnite Casasndra operator (K8ssandra)
  • Sfunkčnite k8s dashboard
  • Naučte sa vkladať dáta do Cassandry a písať dotazy.
  • pošlite osnovu k bakalárskej práci a relevantný text (stačí aj v poznámkovom bloku)

Stretnutie 24.9.

Úlohy:

  • Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
  • Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
  • Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
  • Naučte sa vkladať dáta do Cassandry a písať dotazy.

Zásobník úloh:

  • Rozbehať crawler Websucker s Cassandrou.
  • Implementovať PageRank.
  • Napísať skript na indexovanie pomocou ElasticSearch.

Stretnutie 10.9.

Úlohy:

  • Nainštalovať databázu Cassandra - Využite Docker.
  • Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
  • Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
  • Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.