Documentos da CPI da Pandemia
A CPI da Pandemia recebeu milhares de documentos pΓΊblicos, todos disponibilizados no site do Senado Federal.
Mas como clicar um por um leva tempo, automatizamos o download e descompactação de todos esses arquivos, facilitando assim não só o acesso, mas também buscas nos arquivos com ferramentas como Evernote, Spotlight, etc.
Avisos importantes
Nome dos arquivos
Para sincronizar esses arquivos na nuvem e evitar erros no sistema de arquivos, todos os nomes de arquivos foram normalizados retirando acentuação e caracteres especiais.
Por exemplo, um arquivo chamado OfΓcio.text
Γ© renomeado para Oficio.txt
.
Erros
Algumas links para baixar os documentos pΓΊblicos nΓ£o funcionam. Mesmo com estratΓ©gias de repetir a tentativa em caso de erro, pode ser que nem todos os arquivos listados estejam, de fato, disponΓvel.
Links que nΓ£o puderem ser baixados sΓ£o listados no arquivo erros.txt
.
SΓ³ quero baixar os arquivos
O resultado estΓ‘ disponibilizado nesse diretΓ³rio no Dropbox, e vocΓͺ pode baixar tudo com um clique.
Vou tentar manter esse diretΓ³rio atualizado executando esse programa cerca de 3x semana.
Sou hacker e quero mais
VocΓͺ tambΓ©m pode baixar tudo direto do Senado Federal, instalando esse pacote e digitando apenas um comando.
Utilização com docker
Requer Docker:
$ docker build -t docs-cpi-pandemia .
$ docker run -it -v $PWD/data:/data docs-cpi-pandemia
Os arquivos serΓ£o baixados em um diretΓ³rio data/
dentro da pasta onde vocΓͺ executou esse comando.
Instalação sem docker
Requer Python 3.9 e Poetry:
$ poetry install
Uso
$ poetry run python -m cpi_pandemia
Existem opçáes que podem ser configuradas, as instruçáes e valores padráes podem ser vistos adicionando --help
ao final do comando.