Skip to content

BOLD

processing

processing

QUERY_EXPORT_SEARCH = "\nPREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>\nSELECT\n ?iri \n (STR(?labelRaw) AS ?label) \n ?count \n ?pos\n ?type\n (STR(?descriptionRaw) AS ?description) \n{\n {\n SELECT (?t as ?iri) (COUNT(?t) as ?count) ({pos} as ?pos) \n {triple}\n GROUP BY ?t HAVING (?count > {min_count})\n }\n\n OPTIONAL { \n ?iri rdfs:label ?labelRaw.\n FILTER (STRSTARTS(lang(?labelRaw), 'en') || lang(?labelRaw)='')\n }\n OPTIONAL { \n ?iri rdfs:comment ?descriptionRaw.\n FILTER (STRSTARTS(lang(?descriptionRaw), 'en') || lang(?descriptionRaw)='')\n }\n OPTIONAL { ?iri rdfs:type ?type }\n}\n" `module-attribute`

`logger = get_logger()` `module-attribute`

`create_default_search_index(path=None, force=True)`

Source code in datasets/tasks/processing.py

@shared_task()
def create_default_search_index(
    path: str = None,
    force: bool = True,
):
    logger.info(f"Creating default search index")

    search_index_dir = DEFAULT_SEARCH_INDEX
    if search_index_dir.exists():
        if force:
            logger.info(f"Removing existing search index at {search_index_dir}")
            shutil.rmtree(search_index_dir)
        else:
            logger.info(f"Default search index already exists")
            return

    search_index_dir.mkdir(parents=True, exist_ok=True)

    tmp_dir = (Path(path) if path else DOWNLOAD_DIR) / random_string(10)
    tmp_dir.mkdir(parents=True, exist_ok=True)

    try:
        terms_files = [
            settings.BASE_DIR.joinpath('data', 'rdf.tsv'),
            settings.BASE_DIR.joinpath('data', 'rdfs.tsv'),
            settings.BASE_DIR.joinpath('data', 'owl.tsv'),
            settings.BASE_DIR.joinpath('data', 'foaf.tsv'),
        ]

        logger.info('Creating search index from documents')
        consume_print(BoldCli.cmd(
            ['build-index', '--force', *map(str, terms_files), '--index', str(search_index_dir)]
        ))

        logger.info('Search index created')
    finally:
        logger.info(f"Cleaning up {tmp_dir}")
        shutil.rmtree(tmp_dir, ignore_errors=True)

`create_search_index(dataset_id, min_term_count=3, path=None, force=True)`

Source code in datasets/tasks/processing.py

@shared_task()
def create_search_index(
    dataset_id: UUID,
    min_term_count: int = 3,
    path: str = None,
    force: bool = True,
):
    dataset = Dataset.objects.get(id=dataset_id)
    logger.info(f"Creating search index for {dataset.name}")

    database = dataset.local_database
    if database is None:
        raise Exception("Dataset has no database")

    search_index_dir = DATA_DIR / f'search_index_{database}'
    if search_index_dir.exists():
        if force:
            logger.info(f"Removing existing search index at {search_index_dir}")
            shutil.rmtree(search_index_dir)
        else:
            logger.info(f"Search index already exists for {dataset.name}")
            return

    search_index_dir.mkdir(parents=True, exist_ok=True)

    tmp_dir = (Path(path) if path else DOWNLOAD_DIR) / random_string(10)
    tmp_dir.mkdir(parents=True, exist_ok=True)
    try:
        terms_files = []

        terms_s_file = tmp_dir / 'terms_s.tsv'
        query = QUERY_EXPORT_SEARCH \
            .replace('{triple}', '{ ?t ?p ?v }') \
            .replace('{min_count}', str(min_term_count)) \
            .replace('{pos}', '0')
        logger.info(f'Exporting subject search terms {terms_s_file}')
        query_to_file(database, query, terms_s_file, timeout=60 * 60 * 1000)
        terms_files.append(terms_s_file)

        terms_p_file = tmp_dir / 'terms_p.tsv'
        query = QUERY_EXPORT_SEARCH \
            .replace('{triple}', '{ ?s ?t ?v }') \
            .replace('{min_count}', str(min_term_count)) \
            .replace('{pos}', '1')
        logger.info(f'Exporting predicate search terms {terms_p_file}')
        query_to_file(database, query, terms_p_file, timeout=60 * 60 * 1000)
        terms_files.append(terms_p_file)

        terms_o_file = tmp_dir / 'terms_o.tsv'
        query = QUERY_EXPORT_SEARCH \
            .replace('{triple}', '{ ?s ?p ?t FILTER(?p != rdfs:label) }') \
            .replace('{min_count}', str(min_term_count)) \
            .replace('{pos}', '2')
        logger.info(f'Exporting object search terms {terms_o_file}')
        query_to_file(database, query, terms_o_file, timeout=60 * 60 * 1000)
        terms_files.append(terms_o_file)

        logger.info('Creating search index from documents')
        consume_print(BoldCli.cmd(
            ['build-index', '--force', *map(str, terms_files), '--index', str(search_index_dir)]
        ))

        logger.info('Search index created')
    finally:
        logger.info(f"Cleaning up {tmp_dir}")
        shutil.rmtree(tmp_dir, ignore_errors=True)

`query_to_file(database, query, file, timeout=5000, **kwargs)`

Source code in datasets/tasks/processing.py

def query_to_file(database: str, query: str, file: Path, timeout=5000, **kwargs):
    endpoint = settings.STARDOG_ENDPOINT.rstrip('/')
    credentials = base64.b64encode(f'{settings.STARDOG_USER}:{settings.STARDOG_PASS}'.encode('utf-8')).decode(
        'utf-8')

    headers = {
        'Content-Type': 'application/sparql-query',
        'Accept': 'text/tsv',
        'Authorization': f'Basic {credentials}',
    }

    response = requests.post(f'{endpoint}/{database}/query', headers=headers, data=query, params={
        **kwargs,
        'timeout': timeout,
    }, stream=True)

    with response as r:
        r.raw.decode_content = True
        with file.open('wb') as f:
            # https://stackoverflow.com/a/49684845
            shutil.copyfileobj(r.raw, f)