zz

2023-03-05 15:44:49 +01:00 · 2023-03-05 15:44:49 +01:00 · 1752d5c776
commit 1752d5c776
parent 437d4f9684
3 changed files with 103 additions and 0 deletions
--- a/mongo/docker-compose.yaml
+++ b/mongo/docker-compose.yaml
@ -0,0 +1,18 @@
 version: "3.0"
 services:
  mongo:
    image: mongo
    environment:
      MONGO_INITDB_ROOT_USERNAME: root
      MONGO_INITDB_ROOT_PASSWORD: example
    ports:
      - 27017:27017
  mongo-express:
    image: mongo-express
    ports:
      - 8081:8081
    environment:
      ME_CONFIG_MONGODB_ADMINUSERNAME: root
      ME_CONFIG_MONGODB_ADMINPASSWORD: example
      ME_CONFIG_MONGODB_URL: mongodb://root:example@mongo:27017/
--- a/mongo/mongocwarler.py
+++ b/mongo/mongocwarler.py
@ -0,0 +1,75 @@
 import pymongo
 import trafilatura
 import trafilatura.feeds
 import trafilatura.sitemaps
 import trafilatura.spider
 import sys
 def index_page(db,url,content,extracted_page):
    htmlldb = db["html"]
    htmldb.insert_one({"url":ulr,"content":content})
    contentdb = db["content"]
    contentdb.insert_one(extracted_page)
    pass
 def fetch_pages(link_batch):
    docs  = []
    for link in link_batch:
        link_doc = {"url":link,"status": "unvisited"}
        rr = trafilatura.fetch_url(page,decode=True)
        if rr is not None:
            link_doc["status"] = "html_ok"
            link_doc["html"] = rr
        docs.append(link_doc)
    return docs
 def extract_pages(link_docs):
    content = []
    extracted_links = set()
    for doc in link_docs:
        if doc["status"] != "html_ok":
            continue
        extracted_doc = trafilatura.bare_extraction(doc["content"],extract_links=True)
        links = extracted_doc["links"]
        extracted_links += links
        del extracted_doc["links"]
        content.append(extracted_doc)
    return content, extracted_links
 def index_pages(pagedb,pages_list):
    mycol = pagedb["content"]
    for page in page_list:
        # get paragraph checksums
        checksums = get_checksums(page["text"])
        page["checksums"] = checksums
    x = mycol.insert_many(pages_list)
    page_hashes = []
        pass
 def get_visited_links(domain):
    return []
 def generic_visit(domain):
    known_links = set(get_visited_links(domain))
    visit_links = []
    visit_links = trafilatura.find_feed_urls(domain)
    if visit_links is None:
        visit_links = trafilatura.sitemap_search(domain)
    if visit_links is None:
        visit_links = trafilatura.focused_crawler(dommain,known_links=known_links)
 def simple_visit(domain):
    known_links = []
    #res = trafilatura.spider.focused_crawler(domain,known_links=known_links)
    print(res)
    #visit_links = trafilatura.feeds.find_feed_urls(domain)
    #visit_links = trafilatura.sitemaps.sitemap_search(domain)
    #print(visit_links)
    #for link in visit_links:
    #    content = trafilatura.fetch_url(link,decode=True)
    #    document = trafilatura.bare_extraction(content)
    #    print(content)
 simple_visit(sys.argv[1])
--- a/mongo/mongoindexer.py
+++ b/mongo/mongoindexer.py
@ -0,0 +1,10 @@
 import pymongo
 myclient = pymongo.MongoClient("mongodb://root:example@localhost:27017/")
 mydb = myclient["mydatabase"]
 mycol = mydb["customers"]
 mydict = {"text":"ahoj svet"}
 x = mycol.insert_one(mydict)