websucker-pip/mongo/mongocwarler.py

import pymongo
import trafilatura
import trafilatura.feeds
import trafilatura.sitemaps
import trafilatura.spider
import trafilatura.utils
import trafilatura.external
import sys
import courlan
import urllib
from datetime import datetime
import click
import logging as LOGGER
import os
import pprint

LANGUAGE= os.getenv("SUCKER_LANGUAGE","sk")
DOMAIN = os.getenv("SUCKER_DOMAIN","sk")
BATCHSIZE=os.getenv("SUCKER_BATCHSIZE",10)
CONNECTION=os.getenv("SUCKER_CONNECTION","mongodb://root:example@localhost:27017/")
DBNAME=os.getenv("SUCKER_DBNAME","crawler")
MINFILESIZE=300
MAXFILESIZE=10000000
MINTEXTSIZE=200

def put_queue(db,channel,message):
    queuecol = db["queue"]
    queuecol.insert_one({"channel":channel,"message":message,"created_at":datetime.utcnow(),"started_at":None})

def reserve_queue(db,channel,message):
    queuecol = db["queue"]
    r = queuecol.find_one_and_delete({"channel":channel},sort={"created_at":-1})

def delete_queue(db,channel):
    queuecol = db["queue"]
    pass

def calculate_checksums(text):
    """
    @return fingerprints of a paragraphs in text. Paragraphs are separated by a blank line
    """
    checksums = []
    sizes = []
    hval = 0
    hsz = 0
    sz = 0
    for c in text:
        cv = ord(c)
        sz += 1
        if cv > 64:
            hval += (hval << 3) + cv
            zv = hval >> 31
            hval &= 0x7fffffff
            hval += zv
            hsz += 1
        if c == "\n" and hsz > 0:
            if hsz > 100:
                checksums.append(hval)
                sizes.append(sz)
            sz = 0
            hsz = 0
    if hsz > 100:
        checksums.append(hval)
        sizes.append(sz)
    return checksums, sizes

def is_robot_good(link,rules):
    # check robots.txt rules
    if rules is not None and not rules.can_fetch("*", link):
        print("bad>>>" + link)
        return False
    return True

def is_link_good(link):
    r = courlan.check_url(link,strict=True,language=LANGUAGE)
    if r is None:
        return None
    llink,lhostname = r
    #print(llink,lhostname)
    # hostname rules
    if not lhostname.endswith(DOMAIN):
        LOGGER.debug("bad hostname")
        return None
    if courlan.is_not_crawlable(llink):
        LOGGER.debug("not crawlable")
        return None
    return llink

def get_link_doc(link,status="frontlink"):
    r  = courlan.check_url(link)
    assert r is not None
    link,host = r
    domain = courlan.extract_domain(link)
    return {"url":link,"host":host,"domain":domain,"status":status,"created_at":datetime.utcnow()}


def fetch_pages(link_batch):
    htmls  = []
    #print(link_batch)
    #print("zzzzzzzzzz")
    for link in link_batch:
        print("fetching:::::")
        print(link)
        final_link = link
        response = trafilatura.fetch_url(link,decode=False)
        html = None
        if response is not None :
            good = True
            if response.status != 200:
                good = False
                LOGGER.error('not a 200 response: %s for URL %s', response.status, url)
            elif response.data is None or len(response.data) < MINFILESIZE:
                LOGGER.error('too small/incorrect for URL %s', link)
                good = False
            # raise error instead?
            elif len(response.data) > MAXFILESIZE:
                good = False
                LOGGER.error('too large: length %s for URL %s', len(response.data), link)
            if good:
                html = trafilatura.utils.decode_response(response) 
                final_link = response.url
            if html is not None:
                html, final_link = trafilatura.spider.refresh_detection(html, final_link)
                # is there a meta-refresh on the page?
                if final_link is None:  # malformed or malicious content
                    html = None
        htmls.append((final_link,html))
    return htmls

def fetch_robot(base_url):
    try:
        rawrules = trafilatura.fetch_url("https://"+ base_url + "/robots.txt")
        #print(rawrules)
        rules = urllib.robotparser.RobotFileParser()
        rules.parse(rawrules.split("\n"))
        LOGGER.info('got robots')
    except Exception as exc:
        LOGGER.error('cannot read robots.txt: %s', exc)
        rules = None
    # exceptions happening here
    return rules


def extract_pages(link_batch,responses):
    out = []
    for original_link,(final_link,html) in zip(link_batch,responses):
        doc = None
        assert original_link is not None
        if html is not None:
            doc = trafilatura.bare_extraction(html,url=final_link,with_metadata=True,include_formatting=False,target_language=LANGUAGE,favor_precision=True)
            if doc is not None:
                if not "text" in doc or len(doc["text"]) < MINTEXTSIZE:
                    # text too small
                    doc = None

        out.append((original_link,final_link,html,doc))
    return out


def index_pages(db,hostname,extracted_pages):
    linkcol = db["links"]
    htmlcol = db["html"]
    contentcol = db["content"]
    links = []
    for original_link,final_link,html,doc in extracted_pages:
        state = "good"
        link = original_link
        if original_link != final_link:
            linkcol.update_one({"url":original_link},{"$set":{"status":"redirect"}})
            link = final_link
        if html is None:
            state = "html_error"
        elif doc is None:
            state = "content_error"
        if doc is not None:
            text = doc["text"]
            checksums,sizes = calculate_checksums(text)
            doc["text_size"] = len(text)
            doc["paragraph_checksums"] = checksums
            doc["paragraph_sizes"] = sizes
            doc["paragraph_sizes_sum"] = sum(sizes)
            goodsz = sum(sizes)
            if len(text) < 200 or goodsz/len(text) < 0.4:
                stat = "trash"
        if state == "good":
            htdoc = get_link_doc(link,state)
            htdoc["html"] = html
            htdoc["html_size"] = len(html)
            # can be revisited - upsert
            del htdoc["url"]
            htmlcol.update_one({"url":link},{"$set":htdoc},upsert=True)
            doc.update(get_link_doc(link,"good"))
            # todo extract links
            print(doc)
            del doc["url"]
            contentcol.update_one({"url":link},{"$set":doc},upsert=True)
        linkcol.update_one({"url":original_link},{"$set":{"status":state}})


def extract_links(link_batch,responses,hostname,rules,default_status="frontlink"):
    links = {}
    badrobot = 0
    for original_link,(final_link,html) in zip(link_batch,responses):
        status = default_status
        external_links = courlan.extract_links(html,final_link,external_bool=True,language=LANGUAGE)
        for link in external_links:
            links[link] = "frontlink"
        internal_links = courlan.extract_links(html,final_link,external_bool=False,language=LANGUAGE)
        #print(extracted_links)
        for link in internal_links:
            if not is_robot_good(link,rules):
                badrobot += 1
                continue
            status = str(default_status)
            if courlan.is_navigation_page(link):
                status = "navigation"
            #print(link,status)
            links[link] = status
    outlinks = []
    badlink = 0
    for link,status in links.items():
        link = is_link_good(link)
        if link is None:
            badlink += 1
            continue
        outlinks.append((link,status))
    print(f"{len(links)} total links, {badrobot} badrobot {badlink} badlinks")
    return outlinks

def index_links(db,extracted_links):
    linkcol=db["links"]
    for link,status in extracted_links:
        doc = get_link_doc(link,status)
        try:
            linkcol.insert_one(doc)
        except pymongo.errors.DuplicateKeyError as ex:
            pass

def get_links(db,hostname,status,batch_size):
    linkcol = db["links"]
    res  = linkcol.find({"status":status,"host":hostname},{"url":1},limit=batch_size)
    links = []
    for i,doc in enumerate(res):
        #print(">>>>>" + status)
        #print(doc);
        print(">>>>links")
        print(doc)
        links.append(doc["url"])
        if i >= batch_size:
            break
    return links


def process_links(db,hostname,status,links=[],rules=None,batch_size=BATCHSIZE):
    #print(links)
    responses = fetch_pages(links)
    #print(responses)
    extracted_pages = extract_pages(links,responses)
    #print(extracted_pages)
    extracted_links = extract_links(links,responses,hostname,rules,status)
    #print(extracted_links)
    index_links(db,extracted_links)
    index_pages(db,hostname,extracted_pages)


def link_summary(db,hostname):
    linkcol = db["links"]
    #res = linkcol.distinct("hostname",{"hostname":hostname})
    
    # count links
    res = linkcol.aggregate([
        {"$match":{"host":hostname}},
        {"$group":{"_id":"$status","count":{"$sum":1}}},
    ])
    for item in res:
        print(item)
    print(">>>Domain Content")
    contentcol = db["content"]
    res = contentcol.aggregate([
        {"$match":{"host":hostname}},
        #{"$project": {"textsum":{"$sum":"$text_size"}}}
        {"$group":{"_id":None,
                   "text_size_sum":{"$sum":"$text_size"},
                   "paragraph_size_sum":{"$sum":"$paragraph_sizes_sum"}
                   }
         },
    ])
    for item in res:
        print(item)


@click.group()
def cli():
    pass

@cli.command()
def createdb():
    myclient = pymongo.MongoClient(CONNECTION)
    db=myclient[DBNAME]
    linkcol = db["links"]
    linkcol.create_index("url",unique=True)
    linkcol.create_index("host")
    contentcol = db["content"]
    contentcol.create_index("url",unique=True)
    #contentcol.create_index({"paragraph_checksums":1})
    contentcol.create_index("host")
    htmlcol = db["html"]
    htmlcol.create_index("url",unique=True)

@cli.command()
@click.argument("link")
def parseurl(link):
    link,hostname = courlan.check_url(link)
    rawrules = trafilatura.fetch_url("https://"+ hostname + "/robots.txt")
    print(rawrules)
    rules = urllib.robotparser.RobotFileParser()
    rules.parse(rawrules.split("\n"))
    print(rules.can_fetch("*",link))
    print(rules.site_maps())
    print(rules.crawl_delay("*"))
    html = trafilatura.fetch_url(link,decode=True)
    doc = trafilatura.bare_extraction(html)
    import pprint
    pprint.pprint(doc)

@cli.command()
@click.argument("link")
def externaldomains(link):
    html = trafilatura.fetch_url(link,decode=True)
    external_links = courlan.extract_links(html,link,external_bool=True,language=LANGUAGE)
    domains = set()
    for l in external_links:
        r = courlan.check_url(l)
        if r is None:
            pass
        link,domain = r
        domains.add(domain)
    for d in domains:
        print(d)


@cli.command()
@click.argument("start_link")
def visit(start_link):
    myclient = pymongo.MongoClient(CONNECTION)
    db=myclient[DBNAME]
    start_link,hostname = courlan.check_url(start_link)
    rules = fetch_robot(hostname)
    print(rules)
    batch_size = BATCHSIZE
    navigation_links = get_links(db,hostname,"navigation",batch_size)
    if start_link is not None:
        navigation_links.append(start_link)
    print(f"Navigation links {len(navigation_links)}")
    process_links(db,hostname,"frontlink",navigation_links,rules)
    links = get_links(db,hostname,"frontlink",batch_size)
    bl = len(links) - batch_size
    print(f"Got {len(links)} frontlinks")
    if bl > 0:
        print("Getting  backlinks")
        front_links = get_links(db,hostname,"backlink",bl)
        links += front_links
    print("Processing backlinks")
    process_links(db,hostname,"backlink",links,rules=rules)
    link_summary(db,hostname)

if __name__ == "__main__":
    cli()
zz 2023-03-05 14:44:49 +00:00			`import pymongo`
			`import trafilatura`
			`import trafilatura.feeds`
			`import trafilatura.sitemaps`
			`import trafilatura.spider`
wip 2023-03-10 12:01:11 +00:00			`import trafilatura.utils`
zz 2023-03-16 15:06:07 +00:00			`import trafilatura.external`
zz 2023-03-05 14:44:49 +00:00			`import sys`
zz 2023-03-07 07:58:28 +00:00			`import courlan`
works 2023-03-11 13:14:39 +00:00			`import urllib`
zz 2023-03-12 05:16:47 +00:00			`from datetime import datetime`
			`import click`
zz 2023-03-12 08:50:22 +00:00			`import logging as LOGGER`
			`import os`
zz 2023-03-16 15:06:07 +00:00			`import pprint`
zz 2023-03-05 14:44:49 +00:00
zz 2023-03-12 08:50:22 +00:00			`LANGUAGE= os.getenv("SUCKER_LANGUAGE","sk")`
			`DOMAIN = os.getenv("SUCKER_DOMAIN","sk")`
			`BATCHSIZE=os.getenv("SUCKER_BATCHSIZE",10)`
			`CONNECTION=os.getenv("SUCKER_CONNECTION","mongodb://root:example@localhost:27017/")`
			`DBNAME=os.getenv("SUCKER_DBNAME","crawler")`
works 2023-03-11 13:14:39 +00:00			`MINFILESIZE=300`
zz 2023-03-12 05:16:47 +00:00			`MAXFILESIZE=10000000`
			`MINTEXTSIZE=200`
zz 2023-03-05 17:53:14 +00:00
zz 2023-03-17 15:40:55 +00:00			`def put_queue(db,channel,message):`
			`queuecol = db["queue"]`
			`queuecol.insert_one({"channel":channel,"message":message,"created_at":datetime.utcnow(),"started_at":None})`

			`def reserve_queue(db,channel,message):`
			`queuecol = db["queue"]`
			`r = queuecol.find_one_and_delete({"channel":channel},sort={"created_at":-1})`

			`def delete_queue(db,channel):`
			`queuecol = db["queue"]`
			`pass`

zz 2023-03-07 15:18:32 +00:00			`def calculate_checksums(text):`
zz 2023-03-05 17:53:14 +00:00			`"""`
			`@return fingerprints of a paragraphs in text. Paragraphs are separated by a blank line`
			`"""`
			`checksums = []`
			`sizes = []`
			`hval = 0`
			`hsz = 0`
			`sz = 0`
			`for c in text:`
			`cv = ord(c)`
			`sz += 1`
			`if cv > 64:`
			`hval += (hval << 3) + cv`
			`zv = hval >> 31`
			`hval &= 0x7fffffff`
			`hval += zv`
			`hsz += 1`
			`if c == "\n" and hsz > 0:`
			`if hsz > 100:`
			`checksums.append(hval)`
			`sizes.append(sz)`
			`sz = 0`
			`hsz = 0`
			`if hsz > 100:`
			`checksums.append(hval)`
			`sizes.append(sz)`
			`return checksums, sizes`

zz 2023-03-11 10:30:30 +00:00			`def is_robot_good(link,rules):`
			`# check robots.txt rules`
zz 2023-03-12 08:50:22 +00:00			`if rules is not None and not rules.can_fetch("*", link):`
zz 2023-03-29 08:17:57 +00:00			`print("bad>>>" + link)`
zz 2023-03-11 10:30:30 +00:00			`return False`
			`return True`

			`def is_link_good(link):`
works 2023-03-11 13:14:39 +00:00			`r = courlan.check_url(link,strict=True,language=LANGUAGE)`
zz 2023-03-11 10:30:30 +00:00			`if r is None:`
			`return None`
zz 2023-03-17 11:30:53 +00:00			`llink,lhostname = r`
			`#print(llink,lhostname)`
			`# hostname rules`
			`if not lhostname.endswith(DOMAIN):`
			`LOGGER.debug("bad hostname")`
zz 2023-03-11 10:30:30 +00:00			`return None`
			`if courlan.is_not_crawlable(llink):`
zz 2023-03-12 08:50:22 +00:00			`LOGGER.debug("not crawlable")`
zz 2023-03-11 10:30:30 +00:00			`return None`
works 2023-03-11 13:14:39 +00:00			`return llink`
zz 2023-03-11 10:30:30 +00:00
z 2023-03-08 09:56:39 +00:00			`def get_link_doc(link,status="frontlink"):`
			`r = courlan.check_url(link)`
			`assert r is not None`
zz 2023-03-09 12:29:34 +00:00			`link,host = r`
zz 2023-03-10 05:23:30 +00:00			`domain = courlan.extract_domain(link)`
zz 2023-03-12 05:16:47 +00:00			`return {"url":link,"host":host,"domain":domain,"status":status,"created_at":datetime.utcnow()}`
zz 2023-03-05 17:53:14 +00:00
zz 2023-03-07 15:18:32 +00:00
z 2023-03-08 09:56:39 +00:00			`def fetch_pages(link_batch):`
zz 2023-03-07 07:58:28 +00:00			`htmls = []`
works 2023-03-11 13:14:39 +00:00			`#print(link_batch)`
			`#print("zzzzzzzzzz")`
zz 2023-03-07 07:58:28 +00:00			`for link in link_batch:`
z 2023-03-08 09:56:39 +00:00			`print("fetching:::::")`
zz 2023-03-07 15:18:32 +00:00			`print(link)`
works 2023-03-11 13:14:39 +00:00			`final_link = link`
zz 2023-03-11 10:30:30 +00:00			`response = trafilatura.fetch_url(link,decode=False)`
works 2023-03-11 13:14:39 +00:00			`html = None`
			`if response is not None :`
			`good = True`
			`if response.status != 200:`
			`good = False`
zz 2023-03-12 08:50:22 +00:00			`LOGGER.error('not a 200 response: %s for URL %s', response.status, url)`
works 2023-03-11 13:14:39 +00:00			`elif response.data is None or len(response.data) < MINFILESIZE:`
zz 2023-03-25 12:48:38 +00:00			`LOGGER.error('too small/incorrect for URL %s', link)`
works 2023-03-11 13:14:39 +00:00			`good = False`
			`# raise error instead?`
			`elif len(response.data) > MAXFILESIZE:`
			`good = False`
zz 2023-03-25 12:48:38 +00:00			`LOGGER.error('too large: length %s for URL %s', len(response.data), link)`
works 2023-03-11 13:14:39 +00:00			`if good:`
			`html = trafilatura.utils.decode_response(response)`
			`final_link = response.url`
			`if html is not None:`
			`html, final_link = trafilatura.spider.refresh_detection(html, final_link)`
			`# is there a meta-refresh on the page?`
			`if final_link is None: # malformed or malicious content`
			`html = None`
			`htmls.append((final_link,html))`
zz 2023-03-07 15:18:32 +00:00			`return htmls`
zz 2023-03-07 09:57:47 +00:00
works 2023-03-11 13:14:39 +00:00			`def fetch_robot(base_url):`
wip 2023-03-10 12:01:11 +00:00			`try:`
zz 2023-03-29 08:17:57 +00:00			`rawrules = trafilatura.fetch_url("https://"+ base_url + "/robots.txt")`
			`#print(rawrules)`
			`rules = urllib.robotparser.RobotFileParser()`
			`rules.parse(rawrules.split("\n"))`
zz 2023-03-14 09:59:58 +00:00			`LOGGER.info('got robots')`
wip 2023-03-10 12:01:11 +00:00			`except Exception as exc:`
zz 2023-03-12 08:50:22 +00:00			`LOGGER.error('cannot read robots.txt: %s', exc)`
wip 2023-03-10 12:01:11 +00:00			`rules = None`
zz 2023-03-29 08:17:57 +00:00			`# exceptions happening here`
zz 2023-03-10 15:19:24 +00:00			`return rules`

zz 2023-03-07 09:57:47 +00:00
zz 2023-03-10 05:23:30 +00:00			`def extract_pages(link_batch,responses):`
zz 2023-03-07 09:57:47 +00:00			`out = []`
works 2023-03-11 13:14:39 +00:00			`for original_link,(final_link,html) in zip(link_batch,responses):`
zz 2023-03-07 09:57:47 +00:00			`doc = None`
works 2023-03-11 13:14:39 +00:00			`assert original_link is not None`
zz 2023-03-07 09:57:47 +00:00			`if html is not None:`
zz 2023-03-29 08:17:57 +00:00			`doc = trafilatura.bare_extraction(html,url=final_link,with_metadata=True,include_formatting=False,target_language=LANGUAGE,favor_precision=True)`
zz 2023-03-12 05:16:47 +00:00			`if doc is not None:`
			`if not "text" in doc or len(doc["text"]) < MINTEXTSIZE:`
			`# text too small`
			`doc = None`
zz 2023-03-16 15:06:07 +00:00
works 2023-03-11 13:14:39 +00:00			`out.append((original_link,final_link,html,doc))`
zz 2023-03-07 09:57:47 +00:00			`return out`

z 2023-03-08 09:56:39 +00:00
zz 2023-03-17 11:30:53 +00:00			`def index_pages(db,hostname,extracted_pages):`
zz 2023-03-07 09:57:47 +00:00			`linkcol = db["links"]`
			`htmlcol = db["html"]`
zz 2023-03-07 15:18:32 +00:00			`contentcol = db["content"]`
works 2023-03-11 13:14:39 +00:00			`links = []`
wip 2023-03-10 12:01:11 +00:00			`for original_link,final_link,html,doc in extracted_pages:`
zz 2023-03-07 09:57:47 +00:00			`state = "good"`
zz 2023-03-12 08:50:22 +00:00			`link = original_link`
			`if original_link != final_link:`
zz 2023-03-12 09:08:21 +00:00			`linkcol.update_one({"url":original_link},{"$set":{"status":"redirect"}})`
zz 2023-03-12 08:50:22 +00:00			`link = final_link`
zz 2023-03-07 09:57:47 +00:00			`if html is None:`
			`state = "html_error"`
			`elif doc is None:`
			`state = "content_error"`
			`if doc is not None:`
zz 2023-03-14 09:59:58 +00:00			`text = doc["text"]`
			`checksums,sizes = calculate_checksums(text)`
			`doc["text_size"] = len(text)`
zz 2023-03-07 09:57:47 +00:00			`doc["paragraph_checksums"] = checksums`
			`doc["paragraph_sizes"] = sizes`
zz 2023-03-29 08:17:57 +00:00			`doc["paragraph_sizes_sum"] = sum(sizes)`
zz 2023-03-14 09:59:58 +00:00			`goodsz = sum(sizes)`
zz 2023-03-14 12:54:40 +00:00			`if len(text) < 200 or goodsz/len(text) < 0.4:`
zz 2023-03-16 15:06:07 +00:00			`stat = "trash"`
zz 2023-03-12 08:50:22 +00:00			`if state == "good":`
			`htdoc = get_link_doc(link,state)`
			`htdoc["html"] = html`
			`htdoc["html_size"] = len(html)`
zz 2023-03-14 12:54:40 +00:00			`# can be revisited - upsert`
			`del htdoc["url"]`
			`htmlcol.update_one({"url":link},{"$set":htdoc},upsert=True)`
zz 2023-03-12 08:50:22 +00:00			`doc.update(get_link_doc(link,"good"))`
wip 2023-03-10 12:01:11 +00:00			`# todo extract links`
			`print(doc)`
zz 2023-03-14 12:54:40 +00:00			`del doc["url"]`
			`contentcol.update_one({"url":link},{"$set":doc},upsert=True)`
zz 2023-03-12 08:50:22 +00:00			`linkcol.update_one({"url":original_link},{"$set":{"status":state}})`
zz 2023-03-10 15:19:24 +00:00
zz 2023-03-11 10:30:30 +00:00
zz 2023-03-17 11:30:53 +00:00			`def extract_links(link_batch,responses,hostname,rules,default_status="frontlink"):`
zz 2023-03-11 10:30:30 +00:00			`links = {}`
zz 2023-03-29 08:17:57 +00:00			`badrobot = 0`
works 2023-03-11 13:14:39 +00:00			`for original_link,(final_link,html) in zip(link_batch,responses):`
zz 2023-03-11 10:30:30 +00:00			`status = default_status`
zz 2023-03-12 12:53:17 +00:00			`external_links = courlan.extract_links(html,final_link,external_bool=True,language=LANGUAGE)`
			`for link in external_links:`
			`links[link] = "frontlink"`
zz 2023-03-14 07:59:23 +00:00			`internal_links = courlan.extract_links(html,final_link,external_bool=False,language=LANGUAGE)`
works 2023-03-11 13:14:39 +00:00			`#print(extracted_links)`
zz 2023-03-12 12:53:17 +00:00			`for link in internal_links:`
zz 2023-03-29 08:17:57 +00:00			`if not is_robot_good(link,rules):`
			`badrobot += 1`
			`continue`
zz 2023-03-12 12:53:17 +00:00			`status = str(default_status)`
			`if courlan.is_navigation_page(link):`
zz 2023-03-11 10:30:30 +00:00			`status = "navigation"`
works 2023-03-11 13:14:39 +00:00			`#print(link,status)`
zz 2023-03-11 10:30:30 +00:00			`links[link] = status`
			`outlinks = []`
zz 2023-03-14 09:59:58 +00:00			`badlink = 0`
zz 2023-03-11 10:30:30 +00:00			`for link,status in links.items():`
			`link = is_link_good(link)`
			`if link is None:`
zz 2023-03-14 09:59:58 +00:00			`badlink += 1`
zz 2023-03-11 10:30:30 +00:00			`continue`
			`outlinks.append((link,status))`
zz 2023-03-14 09:59:58 +00:00			`print(f"{len(links)} total links, {badrobot} badrobot {badlink} badlinks")`
zz 2023-03-11 10:30:30 +00:00			`return outlinks`

			`def index_links(db,extracted_links):`
			`linkcol=db["links"]`
			`for link,status in extracted_links:`
			`doc = get_link_doc(link,status)`
zz 2023-03-12 09:08:21 +00:00			`try:`
			`linkcol.insert_one(doc)`
			`except pymongo.errors.DuplicateKeyError as ex:`
			`pass`
zz 2023-03-07 09:57:47 +00:00
zz 2023-03-29 08:17:57 +00:00			`def get_links(db,hostname,status,batch_size):`
z 2023-03-08 09:56:39 +00:00			`linkcol = db["links"]`
zz 2023-03-17 11:30:53 +00:00			`res = linkcol.find({"status":status,"host":hostname},{"url":1},limit=batch_size)`
works 2023-03-11 13:14:39 +00:00			`links = []`
zz 2023-03-29 08:17:57 +00:00			`for i,doc in enumerate(res):`
zz 2023-03-14 12:54:40 +00:00			`#print(">>>>>" + status)`
zz 2023-03-29 08:17:57 +00:00			`#print(doc);`
			`print(">>>>links")`
			`print(doc)`
works 2023-03-11 13:14:39 +00:00			`links.append(doc["url"])`
zz 2023-03-29 08:17:57 +00:00			`if i >= batch_size:`
			`break`
works 2023-03-11 13:14:39 +00:00			`return links`
zz 2023-03-07 07:58:28 +00:00

zz 2023-03-05 14:44:49 +00:00
zz 2023-03-17 11:30:53 +00:00			`def process_links(db,hostname,status,links=[],rules=None,batch_size=BATCHSIZE):`
works 2023-03-11 13:14:39 +00:00			`#print(links)`
zz 2023-03-11 10:30:30 +00:00			`responses = fetch_pages(links)`
works 2023-03-11 13:14:39 +00:00			`#print(responses)`
zz 2023-03-11 10:30:30 +00:00			`extracted_pages = extract_pages(links,responses)`
works 2023-03-11 13:14:39 +00:00			`#print(extracted_pages)`
zz 2023-03-17 11:30:53 +00:00			`extracted_links = extract_links(links,responses,hostname,rules,status)`
zz 2023-03-12 12:53:17 +00:00			`#print(extracted_links)`
zz 2023-03-11 10:30:30 +00:00			`index_links(db,extracted_links)`
zz 2023-03-17 11:30:53 +00:00			`index_pages(db,hostname,extracted_pages)`
zz 2023-03-11 10:30:30 +00:00
zz 2023-03-12 05:16:47 +00:00
zz 2023-03-17 11:30:53 +00:00			`def link_summary(db,hostname):`
zz 2023-03-12 05:16:47 +00:00			`linkcol = db["links"]`
zz 2023-03-17 11:30:53 +00:00			`#res = linkcol.distinct("hostname",{"hostname":hostname})`
zz 2023-03-12 08:50:22 +00:00
			`# count links`
zz 2023-03-12 05:16:47 +00:00			`res = linkcol.aggregate([`
zz 2023-03-17 11:30:53 +00:00			`{"$match":{"host":hostname}},`
zz 2023-03-12 05:16:47 +00:00			`{"$group":{"_id":"$status","count":{"$sum":1}}},`
			`])`
			`for item in res:`
			`print(item)`
zz 2023-03-25 13:39:36 +00:00			`print(">>>Domain Content")`
zz 2023-03-12 08:50:22 +00:00			`contentcol = db["content"]`
			`res = contentcol.aggregate([`
zz 2023-03-25 13:39:36 +00:00			`{"$match":{"host":hostname}},`
			`#{"$project": {"textsum":{"$sum":"$text_size"}}}`
zz 2023-03-29 08:17:57 +00:00			`{"$group":{"_id":None,`
			`"text_size_sum":{"$sum":"$text_size"},`
			`"paragraph_size_sum":{"$sum":"$paragraph_sizes_sum"}`
			`}`
			`},`
zz 2023-03-12 08:50:22 +00:00			`])`
			`for item in res:`
			`print(item)`
zz 2023-03-12 05:16:47 +00:00
zz 2023-03-12 08:50:22 +00:00
			`@click.group()`
			`def cli():`
			`pass`

			`@cli.command()`
zz 2023-03-12 09:08:21 +00:00			`def createdb():`
zz 2023-03-12 08:50:22 +00:00			`myclient = pymongo.MongoClient(CONNECTION)`
			`db=myclient[DBNAME]`
zz 2023-03-12 05:16:47 +00:00			`linkcol = db["links"]`
zz 2023-03-12 09:08:21 +00:00			`linkcol.create_index("url",unique=True)`
			`linkcol.create_index("host")`
zz 2023-03-12 05:16:47 +00:00			`contentcol = db["content"]`
zz 2023-03-12 09:08:21 +00:00			`contentcol.create_index("url",unique=True)`
			`#contentcol.create_index({"paragraph_checksums":1})`
zz 2023-03-29 08:17:57 +00:00			`contentcol.create_index("host")`
zz 2023-03-12 05:16:47 +00:00			`htmlcol = db["html"]`
zz 2023-03-12 09:08:21 +00:00			`htmlcol.create_index("url",unique=True)`
zz 2023-03-12 05:16:47 +00:00
zz 2023-03-25 12:48:38 +00:00			`@cli.command()`
			`@click.argument("link")`
			`def parseurl(link):`
zz 2023-03-25 13:39:36 +00:00			`link,hostname = courlan.check_url(link)`
			`rawrules = trafilatura.fetch_url("https://"+ hostname + "/robots.txt")`
			`print(rawrules)`
			`rules = urllib.robotparser.RobotFileParser()`
			`rules.parse(rawrules.split("\n"))`
			`print(rules.can_fetch("*",link))`
			`print(rules.site_maps())`
			`print(rules.crawl_delay("*"))`
zz 2023-03-25 12:48:38 +00:00			`html = trafilatura.fetch_url(link,decode=True)`
			`doc = trafilatura.bare_extraction(html)`
			`import pprint`
			`pprint.pprint(doc)`

			`@cli.command()`
			`@click.argument("link")`
			`def externaldomains(link):`
			`html = trafilatura.fetch_url(link,decode=True)`
			`external_links = courlan.extract_links(html,link,external_bool=True,language=LANGUAGE)`
			`domains = set()`
			`for l in external_links:`
			`r = courlan.check_url(l)`
			`if r is None:`
			`pass`
			`link,domain = r`
			`domains.add(domain)`
			`for d in domains:`
			`print(d)`

zz 2023-03-16 15:06:07 +00:00
zz 2023-03-12 08:50:22 +00:00			`@cli.command()`
zz 2023-03-12 05:56:08 +00:00			`@click.argument("start_link")`
zz 2023-03-12 08:50:22 +00:00			`def visit(start_link):`
			`myclient = pymongo.MongoClient(CONNECTION)`
			`db=myclient[DBNAME]`
zz 2023-03-17 11:30:53 +00:00			`start_link,hostname = courlan.check_url(start_link)`
			`rules = fetch_robot(hostname)`
zz 2023-03-12 08:50:22 +00:00			`print(rules)`
zz 2023-03-11 17:41:20 +00:00			`batch_size = BATCHSIZE`
zz 2023-03-17 11:30:53 +00:00			`navigation_links = get_links(db,hostname,"navigation",batch_size)`
zz 2023-03-11 17:41:20 +00:00			`if start_link is not None:`
			`navigation_links.append(start_link)`
zz 2023-03-14 07:59:23 +00:00			`print(f"Navigation links {len(navigation_links)}")`
zz 2023-03-17 11:30:53 +00:00			`process_links(db,hostname,"frontlink",navigation_links,rules)`
			`links = get_links(db,hostname,"frontlink",batch_size)`
zz 2023-03-11 17:41:20 +00:00			`bl = len(links) - batch_size`
zz 2023-03-14 07:59:23 +00:00			`print(f"Got {len(links)} frontlinks")`
zz 2023-03-11 17:41:20 +00:00			`if bl > 0:`
			`print("Getting backlinks")`
zz 2023-03-17 11:30:53 +00:00			`front_links = get_links(db,hostname,"backlink",bl)`
zz 2023-03-12 12:53:17 +00:00			`links += front_links`
zz 2023-03-14 07:59:23 +00:00			`print("Processing backlinks")`
zz 2023-03-17 11:30:53 +00:00			`process_links(db,hostname,"backlink",links,rules=rules)`
			`link_summary(db,hostname)`
zz 2023-03-12 05:56:08 +00:00
			`if __name__ == "__main__":`
			`cli()`