forked from KEMT/zpwiki
74 lines
2.5 KiB
Markdown
74 lines
2.5 KiB
Markdown
---
|
|
title: Dávid Stromp
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2022]
|
|
tag: [ir,cassandra,nlp,cluster]
|
|
author: Maroš Harahus, Daniel Hládek
|
|
---
|
|
Rok začiatku štúdia: 2019
|
|
|
|
# Bakalárska práca 2022
|
|
|
|
Návrh na zadanie:
|
|
|
|
1. Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
|
|
2. Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
|
|
3. Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
|
|
4. Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
|
|
5. Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
|
|
|
|
Cieľ práce:
|
|
|
|
- Zlepšiť proces získavania informácií
|
|
- Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra.
|
|
- Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.
|
|
|
|
## Bakalársky projekt 2021
|
|
|
|
Ciele:
|
|
|
|
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
|
|
- Implementovať algoritmus pre zoradenie (ranking) dokumentov v takejto databáze.
|
|
|
|
Stretnutie 01.10.
|
|
- Minikube funguje na vlastnom počítací
|
|
- Pripravené relevantné poznámky k bakalárskej práci
|
|
- Získaný prístup k RaspberryPi klastru
|
|
|
|
Úlohy na ďalší týždeň:
|
|
- Sfunkčnite Casasndra operator (K8ssandra)
|
|
- Sfunkčnite k8s dashboard
|
|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
|
|
- pošlite osnovu k bakalárskej práci a relevantný text (stačí aj v poznámkovom bloku)
|
|
|
|
|
|
|
|
Stretnutie 24.9.
|
|
|
|
Úlohy:
|
|
|
|
- Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
|
|
- Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
|
|
- Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
|
|
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Rozbehať crawler Websucker s Cassandrou.
|
|
- Implementovať PageRank.
|
|
- Napísať skript na indexovanie pomocou ElasticSearch.
|
|
|
|
|
|
|
|
Stretnutie 10.9.
|
|
|
|
Úlohy:
|
|
|
|
- Nainštalovať databázu Cassandra - Využite Docker.
|
|
- Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
|
|
- Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
|
|
- Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.
|
|
|
|
|