Go to file
Hugo Peixoto 23574c7790 Fix query to work in postgresql 2023-08-01 19:58:31 +01:00
.dockerignore Docker-ignore git 2023-08-01 17:22:14 +01:00
.gitignore Humanizes bytesizes 2023-07-28 12:00:41 +01:00
Dockerfile Add postgresql support 2023-08-01 17:20:10 +01:00
README.md Adds readme 2023-07-28 10:52:38 +01:00
config.ru Use puma directly 2023-07-28 11:09:23 +01:00
count.rb Add more crawler scripts 2023-07-28 10:48:07 +01:00
database.rb Coisas a funcionar 2023-07-28 03:01:40 +01:00
gems.locked Add postgresql support 2023-08-01 17:20:10 +01:00
gems.rb Add postgresql support 2023-08-01 17:20:10 +01:00
get-category.sh Add licensing information 2023-07-28 11:35:31 +01:00
get-failures.sh Add licensing information 2023-07-28 11:35:31 +01:00
get-search.sh Add licensing information 2023-07-28 11:35:31 +01:00
get-tag.sh Add licensing information 2023-07-28 11:35:31 +01:00
get-username.sh Add licensing information 2023-07-28 11:35:31 +01:00
get.sh Add licensing information 2023-07-28 11:35:31 +01:00
import-csv.rb Coisas a funcionar 2023-07-28 03:01:40 +01:00
index.html.erb Add bytes and count per contact 2023-07-30 17:45:26 +01:00
main.rb Fix query to work in postgresql 2023-08-01 19:58:31 +01:00
models.rb Coisas a funcionar 2023-07-28 03:01:40 +01:00
saca-sapos Batch large requests into batches of 1000 2023-08-01 02:46:35 +01:00

README.md

Saca-sapos

Projecto de arquivar o videos.sapo.pt antes que desapareça (17 de setembro)

Endereço do site com informação de como ajudar: https://sapo.pxto.pt

Componentes

Crawler scripts

Um bando de scripts para descobrir o máximo de video-ids possível. É composto pelos ficheiros .sh.

Servidor de coordenação

Um servidor que mantém e distribui video-ids para quem quiser ajudar a preservar a coisa descarregando os vídeos. Escolhe N vídeos aleatórios, e vai mantendo um registo dos file sizes + sha256 dos vídeos descarregados.

Programa de descarregamento

O programa que pede ao servidor um bando de video-ids e os descarrega. É só ficheiro saca-sapos.

Base de dados de video-ids e metadados

Antes estava aqui neste repositório um videos.csv e um videos.jsonl, mas isso empatou o servidor de git por completo. Vou mandar isso para outro lado soon™.