diff --git a/index.html.erb b/index.html.erb index 1757551..7763038 100644 --- a/index.html.erb +++ b/index.html.erb @@ -39,11 +39,49 @@ $ /caminho/para/o/saca-sapos QUANTIDADE_DE_VIDEOS TEU_ENDERECO_DE_EMAIL $ PROCS=10 /caminho/para/o/saca-sapos 1000 eu@exemplo.pt +
+ O repositório de + código deste projecto tem os scripts usados para varrer a plataforma + e guardar todos os identificadores de vídeos que encontrar. Por exemplo, é possível + varrer todas as 1468 páginas da categoria "Animação" (3) correndo o comando: +
+./get-category.sh 3 1468+ +
+ No total, temos recolhidos 1.5 milhões de vídeos. Supostamente há cerca de 5 milhões. + Diponibilizamos os metadados dos vídeos encontrados (1.5 GiB) em formato JSONL. + Cada linha é um objecto JSON que representa um vídeo. +
+ ++ Os endpoints de pesquisa devolvem os metadados completos de cada resultado. + Não sabemos de nenhum endpoint que devolva os metadados de um vídeo em + específico. +
+ +Coisas que já foram feitas:
+a
a z
(./get-search.sh a 105
, etc);./get-search.sh " " 13716
);./get-search.sh 1 6007
, etc);+ Os scripts à volta desta tarefa não estão muito optimizados para distribuir + trabalho / fazer trabalho incremental, mas qualquer ajuda a descobrir mais + vídeos é bem-vinda. Mandem mensagens no fediverso (@hugopeixoto@ciberlandia.pt) para coordenarmos trabalho. +
+Número de vídeos descarregados: <%= stats[:downloads]["total"].to_i %>
Tamanho total: <%= h(stats[:downloads]["bytes"].to_i) %>
Tamanho médio: <%= h(stats[:downloads]["bytes"].to_i / stats[:downloads]["total"].to_i) %>/vídeo
+Número de pessoas a descarregar vídeos: <%= stats[:users]["total"] %>