You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
2 months ago | |
---|---|---|
.dockerignore | 2 months ago | |
.gitignore | 2 months ago | |
Dockerfile | 2 months ago | |
README.md | 2 months ago | |
config.ru | 2 months ago | |
count.rb | 2 months ago | |
database.rb | 2 months ago | |
gems.locked | 2 months ago | |
gems.rb | 2 months ago | |
get-category.sh | 2 months ago | |
get-failures.sh | 2 months ago | |
get-search.sh | 2 months ago | |
get-tag.sh | 2 months ago | |
get-username.sh | 2 months ago | |
get.sh | 2 months ago | |
import-csv.rb | 2 months ago | |
index.html.erb | 2 months ago | |
main.rb | 2 months ago | |
models.rb | 2 months ago | |
saca-sapos | 2 months ago |
README.md
Saca-sapos
Projecto de arquivar o videos.sapo.pt antes que desapareça (17 de setembro)
Endereço do site com informação de como ajudar: https://sapo.pxto.pt
Componentes
Crawler scripts
Um bando de scripts para descobrir o máximo de video-ids possível. É composto pelos ficheiros .sh
.
Servidor de coordenação
Um servidor que mantém e distribui video-ids para quem quiser ajudar a preservar a coisa descarregando os vídeos. Escolhe N vídeos aleatórios, e vai mantendo um registo dos file sizes + sha256 dos vídeos descarregados.
Programa de descarregamento
O programa que pede ao servidor um bando de video-ids e os descarrega. É só ficheiro saca-sapos
.
Base de dados de video-ids e metadados
Antes estava aqui neste repositório um videos.csv e um videos.jsonl, mas isso empatou o servidor de git por completo. Vou mandar isso para outro lado soon™.