.. | ||
README.md |
title | published | taxonomy | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Dávid Stromp | true |
|
Rok začiatku štúdia: 2019
Bakalárska práca 2022
Návrh na zadanie:
- Vypracujte prehľad distribuovaných databáz alebo súborových systémov vhodných pre uloženie veľkého množstva textu.
- Vyberte vhodný spôsob uloženia veľkého množstva webových stránok.
- Nasaďte vybrané distribuované úložisko na testovací klaster pomocou systému Kubernetes.
- Vykonajte sadu testov pre overenia priepustnosti operácií zápisov a čítania.
- Identifikujte slabé miesta distribuovaného úložiska a navrhnite zlepšenia.
Cieľ práce:
- Zlepšiť proces získavania informácií
- Implementovať algoritmus paralelného spracovania dokumentov v databáze Cassandra.
- Implementovať algoritmus Page Rank alebo algoritmus jazykového modelu dokumentu.
Bakalársky projekt 2021
Ciele:
- Vytvoriť nasadenie distribuovanej databázy na testovaci K8S klaster.
- Implementovať algoritmus pre zoradenie (ranking) dokumentov v takejto databáze.
Stretnutie 24.9.
Úlohy:
- Napíšte osnovu bakalárskej práce a pridajte do nej relevantné text čo máte.
- Pripravte Casasndra operator - na začiatok na Vašom počítači. (napr. microk8s, minikube).
- Dohodntite sa s Ing. Harahusom a získajte prístup ku RaspberryPi klastru.
- Naučte sa vkladať dáta do Cassandry a písať dotazy.
Zásobník úloh:
- Rozbehať crawler Websucker s Cassandrou.
- Implementovať PageRank.
- Napísať skript na indexovanie pomocou ElasticSearch.
Stretnutie 10.9.
Úlohy:
- Nainštalovať databázu Cassandra - Využite Docker.
- Vyberte si CQL tutoriál a napíšte krátky záznam čo ste sa naučili.
- Nájdite blogy o spracovaní veľkých dát pomocou Cassandry a napíšte krátky záznam o tom čo ste sa dozveldeli.
- Naštudujte si článok http://ilpubs.stanford.edu:8090/422/ (Brin and Page). Zistite ako súvisí implementácia algorimtu PageRank s Cassandrou. Napíšte to do záznamu.