<li><a href="#descarregar">Descarregar os vídeos</a>: se tiveres uns terabytes livres, podes correr o programa abaixo para ir descarregando novos vídeos;</li>
<li><a href="#descobrir">Descobrir vídeos novos</a>: temos indexados 1.5 milhões de vídeos, mas estima-se que haja 5 milhões.</li>
O <a href="https://git.ansol.org/hugopeixoto/sapo-videos/">repositório de
código deste projecto</a> tem os scripts usados para varrer a plataforma
e guardar todos os identificadores de vídeos que encontrar. Por exemplo, é possível
varrer todas as 1468 páginas da categoria "Animação" (3) correndo o comando:
</p>
<pre>./get-category.sh 3 1468</pre>
<p>
No total, temos recolhidos 1.5 milhões de vídeos. Supostamente há cerca de 5 milhões.
Diponibilizamos os <a href="/videos.jsonl">metadados dos vídeos encontrados (1.5 GiB)</a> em formato JSONL.
Cada linha é um objecto JSON que representa um vídeo.
</p>
<p>
Os endpoints de pesquisa devolvem os metadados completos de cada resultado.
Não sabemos de nenhum endpoint que devolva os metadados de um vídeo em
específico.
</p>
<p>Coisas que já foram feitas:</p>
<ul>
<li>Varridos os resultados das pesquisas por letras únicas de <code>a</code> a <code>z</code> (<code>./get-search.sh a 105</code>, etc);</li>
<li>Varridos os resultados das pesquisas por um só espaço (<code>./get-search.sh " " 13716</code>);</li>
<li>Varridos todos os utilizadores dos vídeos encontrados nos passos anteriores;</li>
<li>Varridas todas as categorias;</li>
<li>Varridos os resultados das pesquisas por um números até 16 (<code>./get-search.sh 1 6007</code>, etc);</li>
</ul>
<p>
Os scripts à volta desta tarefa não estão muito optimizados para distribuir
trabalho / fazer trabalho incremental, mas qualquer ajuda a descobrir mais
vídeos é bem-vinda. Mandem mensagens no fediverso (<a href="https://ciberlandia.pt/@hugopeixoto">@hugopeixoto@ciberlandia.pt</a>) para coordenarmos trabalho.