From 2f632491bca8ec2058058d06acee0eeb3f48e18e Mon Sep 17 00:00:00 2001 From: Hugo Peixoto Date: Fri, 28 Jul 2023 20:31:14 +0100 Subject: [PATCH] Add scraping process details --- index.html.erb | 38 ++++++++++++++++++++++++++++++++++++++ main.rb | 4 +++- 2 files changed, 41 insertions(+), 1 deletion(-) diff --git a/index.html.erb b/index.html.erb index 1757551..7763038 100644 --- a/index.html.erb +++ b/index.html.erb @@ -39,11 +39,49 @@ $ /caminho/para/o/saca-sapos QUANTIDADE_DE_VIDEOS TEU_ENDERECO_DE_EMAIL $ PROCS=10 /caminho/para/o/saca-sapos 1000 eu@exemplo.pt +

Encontrar mais vídeos

+ +

+ O repositório de + código deste projecto tem os scripts usados para varrer a plataforma + e guardar todos os identificadores de vídeos que encontrar. Por exemplo, é possível + varrer todas as 1468 páginas da categoria "Animação" (3) correndo o comando: +

+
./get-category.sh 3 1468
+ +

+ No total, temos recolhidos 1.5 milhões de vídeos. Supostamente há cerca de 5 milhões. + Diponibilizamos os metadados dos vídeos encontrados (1.5 GiB) em formato JSONL. + Cada linha é um objecto JSON que representa um vídeo. +

+ +

+ Os endpoints de pesquisa devolvem os metadados completos de cada resultado. + Não sabemos de nenhum endpoint que devolva os metadados de um vídeo em + específico. +

+ +

Coisas que já foram feitas:

+ + +

+ Os scripts à volta desta tarefa não estão muito optimizados para distribuir + trabalho / fazer trabalho incremental, mas qualquer ajuda a descobrir mais + vídeos é bem-vinda. Mandem mensagens no fediverso (@hugopeixoto@ciberlandia.pt) para coordenarmos trabalho. +

+

Estatísticas

Número de vídeos descarregados: <%= stats[:downloads]["total"].to_i %>

Tamanho total: <%= h(stats[:downloads]["bytes"].to_i) %>

Tamanho médio: <%= h(stats[:downloads]["bytes"].to_i / stats[:downloads]["total"].to_i) %>/vídeo

+

Número de pessoas a descarregar vídeos: <%= stats[:users]["total"] %>