Allow to run single crawls from cmdline (useful on dev instances)

2022-01-09 16:49:37 +00:00 · 2022-01-09 16:49:37 +00:00 · 2f0357c340
commit 2f0357c340
parent 32066ad362
5 changed files with 153 additions and 13 deletions
--- a/src/atextcrawler/crawl/init.py
+++ b/src/atextcrawler/crawl/init.py
@ -7,9 +7,9 @@ from datetime import datetime

 import aiohttp

-from .models import Crawl
-from .resource import ResourceFetcher, get_site_path, process_site_path
-from .site import (
+from ..models import Crawl
+from ..resource import ResourceFetcher, get_site_path, process_site_path
+from ..site import (
    RobotsInfo,
    checkin_site,
    checkout_site,
@ -17,7 +17,7 @@ from .site import (
    process_site,
    update_site,
 )
-from .tensorflow import TensorFlow
+from ..tensorflow import TensorFlow

 logger = logging.getLogger(__name__)

@ -31,6 +31,7 @@ class CrawlWorker:
        self.app = app
        self.worker_number = worker_number
        self.pool = pool
+        self.tf_config = self.app.config['tensorflow']
        self.site_delay = self.app.config['crawl']['site_delay']
        self.resource_delay = self.app.config['crawl']['resource_delay']
        self.site = None
@ -52,7 +53,7 @@ class CrawlWorker:
        self.conn = await self.pool.acquire()
        self.session = aiohttp.ClientSession()
        self.fetcher = ResourceFetcher(self.session)
-        self.tf = TensorFlow(self.app, self.session)
+        self.tf = TensorFlow(self.tf_config, self.session)

    async def shutdown(self):
        """
@ -71,7 +72,8 @@ class CrawlWorker:
        """
        await self.app.sleep(2)
        while self.app.running and self.running:
-            self.site, is_full, more = await checkout_site(self.app, self.conn)
+            self.site, is_full, more = await checkout_site(
+                self.app.config, self.conn)
            if not self.site:
                msg = f'Worker {self.worker_number}: sites exhausted'
                logger.debug(msg)
--- a/src/atextcrawler/crawl/main.py
+++ b/src/atextcrawler/crawl/main.py
@ -0,0 +1,138 @@
+"""
+Run a crawl for a specifiv base_url. Use only on dev instance!
+"""
+
+import asyncio
+import logging
+import sys
+
+import aiohttp
+
+from ..config import Config
+from ..db import PGPool
+from ..models import Site, SitePath
+from ..resource import ResourceFetcher, get_site_path, process_site_path
+from ..search import shutdown_engine, startup_engine
+from ..tensorflow import TensorFlow
+from ..utils.similarity import get_simhash_index
+from . import get_or_create_crawl
+
+logger = logging.getLogger()
+logger.setLevel(logging.WARNING)
+#logger.setLevel(logging.DEBUG)
+logger.addHandler(logging.StreamHandler())
+
+
+async def run():
+    """
+    Run a full/feed crawl a website with given base_url, or just a path.
+
+    The 3rd argument (path) is optional.
+    """
+    config = Config().get()
+    pgpool = await PGPool(config['postgresql'])
+    pool=pgpool.pool
+
+    try:
+        crawl_type = sys.argv[1]
+        if crawl_type not in ('full', 'feed'):
+            logger.error('First argument must be "full" or "feed".')
+        base_url = sys.argv[2]
+    except:
+        msg = (
+            'Please give two arguments:'
+            ' 1) crawl type ("full" or "feed"),'
+            ' 2) the base URL of the site to crawl'
+        )
+        logger.error(msg)
+        sys.exit(2)
+    if len(sys.argv) > 3:
+        path = sys.argv[3]
+    else:
+        path = None
+
+    # find site
+    async with pool.acquire() as conn:
+        sql = 'select id from site where base_url=$1'
+        site_id = await conn.fetchval(sql, base_url)
+        if site_id:
+            site = await Site().load(conn, site_id)
+            logger.warning(f'site_id: {site.id_}')
+            logger.warning(f'crawl_enabled: {site.crawl_enabled}')
+            site.simhash_index = await get_simhash_index(conn, site_id)
+        else:
+            logger.warning('Site not found')
+
+    if site_id:
+        if site.crawl_enabled:
+            await run_crawl(config, pool, site, crawl_type, path)
+        else:
+            logger.warning('Site has crawl_enabled=false')
+
+    # shutdown
+    await pgpool.shutdown()
+
+
+class AppMock:
+    def __init__(self, config, search_engine):
+        self.config = config
+        self.search_engine = search_engine
+        class DummyModule:
+            def rp_filter(self, site, durl):
+                return durl.pwa()
+        self.plugins = {'filter_resource_path': DummyModule()}
+
+
+async def run_crawl(config, pool, site, crawl_type, path):
+    session = aiohttp.ClientSession()
+    fetcher = ResourceFetcher(session)
+    tf = TensorFlow(config['tensorflow'], session)
+    search_engine = await startup_engine(config)
+    app = AppMock(config, search_engine)
+    async with pool.acquire() as conn:
+        is_full = crawl_type == 'full'
+        crawl = await get_or_create_crawl(conn, site.id_, is_full=is_full)
+        logger.warning(crawl)
+        if path:
+            sql = "SELECT * FROM site_path WHERE site_id=$1 AND path=$2"
+            row = await conn.fetchrow(sql, site.id_, path)
+            if row:
+                site_path = await SitePath().load_from_row(row)
+                await process_site_path(
+                    app,
+                    999,
+                    conn,
+                    fetcher,
+                    tf,
+                    site,
+                    site_path,
+                )
+            else:
+                logger.error('Path does not exist in table site_path')
+        else:
+            while True:
+                site_path = await get_site_path(
+                    conn,
+                    site,
+                    crawl.t_begin,
+                    only_new=not crawl.is_full,
+                )
+                if not site_path:
+                    logger.warning('Paths exhausted.')
+                    break
+                logger.warning(site_path)
+                is_new_resource = await process_site_path(
+                    app,
+                    999,
+                    conn,
+                    fetcher,
+                    tf,
+                    site,
+                    site_path,
+                )
+                logger.warning(f'Is new: {is_new_resource}')
+    await shutdown_engine(search_engine)
+
+
+if __name__ == '__main__':
+    asyncio.run(run())
--- a/src/atextcrawler/resource/main.py
+++ b/src/atextcrawler/resource/main.py
@ -76,8 +76,8 @@ async def run():
        if isinstance(resource, TextResource):
            logger.warning(repr(resource))
            logger.warning(f'Language: {resource.lang}')
-            logger.warning(pformat(resource.search_fields))
-            logger.warning(pformat(resource.init_fields))
+            logger.warning(pformat(resource.search_fields, width=180))
+            logger.warning(pformat(resource.init_fields, width=180))

            # annotations = resource.search_fields.get('annotations')
            # text = resource.search_fields['text']
--- a/src/atextcrawler/site/operations.py
+++ b/src/atextcrawler/site/operations.py
@ -25,7 +25,7 @@ logger = logging.getLogger(__name__)


 async def checkout_site(
-    app, conn: Connection
+    config, conn: Connection
 ) -> tuple[Optional[int], bool, bool]:
    """
    Get the id of a site to be crawled and mark it with crawl_active=true.
@ -57,8 +57,8 @@ async def checkout_site(
                    return site, is_full, True
                else:
                    # site not available; schedule next crawl
-                    int_full = app.config['crawl']['full_crawl_interval']
-                    int_feed = app.config['crawl']['feed_crawl_interval']
+                    int_full = config['crawl']['full_crawl_interval']
+                    int_feed = config['crawl']['feed_crawl_interval']
                    now = datetime.utcnow()
                    t_full = now + timedelta(seconds=int_full)
                    t_feed = now + timedelta(seconds=int_full + int_feed)
--- a/src/atextcrawler/tensorflow.py
+++ b/src/atextcrawler/tensorflow.py
@ -17,12 +17,12 @@ class TensorFlow:

    def __init__(
        self,
-        app,
+        tf_config,
        session: aiohttp.ClientSession,
        timeout_sock_connect: Union[int, float] = 0.5,
        timeout_sock_read: Union[int, float] = 10,
    ):
-        self.config = app.config['tensorflow']
+        self.config = tf_config
        self.session = session
        self.timeout = aiohttp.ClientTimeout(
            sock_connect=timeout_sock_connect, sock_read=timeout_sock_read