Entenda o Querido Diário
Para o arquivo do diário oficial sair do site do município e ser acessível para você por meio do Querido Diário, ele passa por algumas etapas:
A coleta onde colocamos robôs raspadores para trabalhar a nosso favor visitando, todos os dias, os sites publicadores dos municípios integrados para obter os arquivos de diários oficiais originais. Aqui, usamos Python e Scrapy para raspagem e o banco de dados PostgreSQL para armazenamento.
No processamento tratamos o arquivo coletado, principalmente extraindo o conteúdo textual de arquivos fechados (no geral, PDFs) para um formato aberto e pesquisável. E é o uso de Python, Apache Tika (extração) e OpenSearch (motor de busca textual) que tornam isso possível.
Na disponibilização, criamos meios para acesso aos nossos dados. Qualquer pessoa pode fazer pesquisas de forma amigável com o buscador na página inicial deste site, desenvolvido em TypeScript e Angular. E qualquer computador pode fazer pesquisas de forma programática por meio da API Pública, desenvolvida em Python com FastAPI.
A imagem a seguir resume como as peças interagem para termos esse fluxo de dados completo.
