No fim da página há algumas estatísticas que descrevem o estado do projecto.
Nota: Só temos instruções para GNU/Linux.
tar xzf /caminho/para/o/saca-sapos.tar.gz
)curl
e jq
$ cd /pasta/com/bastante/espaço $ /caminho/para/o/saca-sapos QUANTIDADE_DE_VIDEOS TEU_ENDERECO_DE_EMAIL
O programa saca até 4 vídeos em simultâneo, mas pode ser configurado para mais ou menos. Por exemplo:
$ cd /pasta/com/bastante/espaço $ PROCS=10 /caminho/para/o/saca-sapos 1000 eu@exemplo.pt
Para ajudar a ter noção de quanto ocupa um certo número de vídeos, temos nas estatísticas o tamanho médio por vídeo.
O repositório de código deste projecto tem os scripts usados para varrer a plataforma e guardar todos os identificadores de vídeos que encontrar. Por exemplo, é possível varrer todas as 1468 páginas da categoria "Animação" (3) correndo o comando:
./get-category.sh 3 1468
No total, temos recolhidos 1.5 milhões de vídeos. Supostamente há cerca de 5 milhões. Diponibilizamos os metadados dos vídeos encontrados (1.5 GiB) em formato JSONL. Cada linha é um objecto JSON que representa um vídeo.
Os endpoints de pesquisa devolvem os metadados completos de cada resultado. Não sabemos de nenhum endpoint que devolva os metadados de um vídeo em específico.
Coisas que já foram feitas:
a
a z
(./get-search.sh a 105
, etc);./get-search.sh " " 13716
);./get-search.sh 1 6007
, etc);Os scripts à volta desta tarefa não estão muito optimizados para distribuir trabalho / fazer trabalho incremental, mas qualquer ajuda a descobrir mais vídeos é bem-vinda. Mandem mensagens no fediverso (@hugopeixoto@ciberlandia.pt) para coordenarmos trabalho.
Número de vídeos conhecidos: <%= videos_known %>
Número de vídeos descarregados: <%= videos_downloaded %> (<%= (videos_downloaded * 100.0 / videos_known).round(2) %>%)
Tamanho descarregado: <%= h bytes_downloaded %>
Tamanho médio: <%= h(bytes_downloaded / videos_downloaded) %>/vídeo
Tamanho total estimado: <%= h bytes_downloaded / videos_downloaded * videos_known %>
Número de pessoas a descarregar vídeos: <%= users %>