Distributed Proofreaders

Screenshot

Distributed Proofreaders (DP) é um projecto que foi fundado em 2000 por Charles Franks para apoiar a digitalização de livros em Domínio público. Originalmente concebido para ajudar o Projeto Gutenberg (PG), o DP é, actualmente, a maior fonte de e-books do PG. Em 2002, o Distributed Proofreaders tornou-se oficialmente parte integrante do Projecto Gutenberg e, como tal, apoiado por ele.

História[editar | editar código-fonte]

Em 2002, Distributed Proofreaders tornou-se parte do site oficial do Projeto Gutenberg e é mantida pelo Projeto Gutenberg. Todos os membros são voluntários.

Este projecto possibilita a revisão de livros em domínio público, disponibilizando as imagens digitalizadas de livros e a sua respectiva reprodução em OCR. A principal vantagem é a revisão página a página, o que acelera significativamente o processo de revisão/criação de um e-book. Cada página é revista por pelo menos cinco pessoas diferentes (divididas entre rondas de revisão ortográfica e de formatação), o que permite eliminar o maior número de erros possível.

Existe uma comunidade portuguesa que aumenta de dia para dia neste projeto, que se dedica à revisão de livros em português. Os principais fornecedores de imagens de livros em língua portuguesa são a Biblioteca Nacional Digital, o Google Book Search e as bibliotecas particulares dos voluntários do DP e dos seus amigos.

Jargão[editar | editar código-fonte]

Não há uma tradução consensual para termo distributed proofreaders que dá origem ao nome próprio do projeto. Grosseiramente é revisores distribuídos, mas o termo "revisor" em geral tem a conotação também de "revisor de texto", ou seja, a pessoa que corrige o texto do ponto de vista linguístico (estilo, sintaxe, ortografia, etc.). O objetivo do DP é justamente garantir uma transcrição fiel, ou seja, não adulterar os documentos originais com "correções" linguísticas.

O termo proofreaders do nome do projeto refere-e aos dois atores principais do processo de transcrição dos documentos:

  • Os "operadores da digitalização", que realizam o processo de OCR e primeira etapa da correção das falhas do processo de digitalização e OCR.
  • Os "revisores de fato", que fazem uma releitura da transcrição e conferem a consistência com o original, comentando ou endossando o trabalho realizado.

Um termo mais preciso, portanto, seria algo como transcritores distribuídos.

Outros DPs[editar | editar código-fonte]

O DP está alojado nos Estados Unidos e contribui obras para o PG, portanto está restrito a obras que se encontrem no domínio público nos EUA. Visto que em outros países as leis de direitos autorais são bastante diferentes, alguns voluntários decidiram criar outros "Projectos Gutenberg" (q. v.) e DPs correspondentes. Assim, em 2005 for criado o DP Europe alojado em servidores na Sérvia (que se encontra actualmente em declínio), e em 2008 o DP Canada, no Canadá.

Em 2008, a equipa "Portuguese" do DP-INT contava com 99 utilizadores registados com pelo menos uma página feita[1]. O DP-EU apresentava 15 voluntários em português no passado, mas nenhum activo actualmente[2]; e o DP-CA ainda não tinha uma equipa em língua portuguesa.

Funcionamento[editar | editar código-fonte]

O processo é simples: divide-se o livro em páginas, acelerando significativamente o processo de revisão/criação de um e-book. Os utilizadores têm acesso à imagem e ao texto resultante do OCR. Cada página é revista pelo menos 4 vezes por utilizadores diferentes, eliminando o maior número de erros possível.

Existe uma comunidade de língua portuguesa com cada vez mais expressão no DP, que a pouco e pouco vão contribuindo para a preservação de obras página a página.

A Biblioteca Nacional Digital (BND) é um dos maiores contribuidores de imagens de obras portuguesas para revisão no DP.

No ano de 2005, esse era o status do Projeto:

  • 15 obras portuguesas (disponíveis gratuitamente no sítio do Projecto Gutenberg)
  • 17869 páginas portuguesas revistas

Processo de trabalho[editar | editar código-fonte]

O trabalho mais visível no DP são as rondas. Cada obra passa por três rondas de revisão (P1, P2, P3), onde apenas é verificado o texto de acordo com a imagem, e depois por duas rondas de formatação (F1 e F2), onde são colocadas as marcações de capítulo, notas de rodapé, itálico etc. O resultado de uma ronda é usado como base para a ronda seguinte, conseguindo-se assim um aperfeiçoamento até atingir o texto final.

O acesso à ronda P1 é dado automaticamente após o registo no site. Para aceder às outras rondas é necessário esperar certo número de dias e atingir mínimos de trabalho, tanto em quantidade como em qualidade, de forma a salvaguardar o resultado final. O trabalho das rondas é feito página a página, ou seja, o voluntário selecciona a obra pretendida e é-lhe fornecida uma página para trabalhar. Quando terminar essa página, pode pedir nova página na mesma obra ou mudar para uma obra diferente. Os fundadores do site aconselham a que cada voluntário faça uma página por dia. Uma página pode levar tipicamente entre 10 e 30 minutos, dependendo entre outras coisas da dificuldade da obra, tamanho da página e método de trabalho do voluntário.

Para além do trabalho nas rondas, existem outros trabalhos relacionados feitos no DP:

  • Fornecimento de conteúdos (CP, content providing): implica obter todas as imagens das páginas de uma obra em domínio público (p. ex. fazendo scan de um livro em papel ou a partir de uma biblioteca digital); pedir autorização de publicação no PG; tratar as imagens das páginas de forma a melhorar o contraste e diminuir o tamanho do arquivo para 100 KB/página; fazer o OCR; obter digitalizações de alta qualidade das ilustrações; e finalmente, carregar as imagens das páginas, ilustrações e texto do OCR nos servidores do DP.
  • Pós-processamento (PP): o pós-processador tem por tarefa pegar nos textos resultantes das rondas e produzir uma versão em texto simples e outra em HTML, tratando as ilustrações e o texto e resolvendo quaisquer dúvidas que tenham ficado das rondas.
  • Gestão de projecto (PM, project management): criar o projecto desde o início, responder a todas as dúvidas dos voluntários nas rondas e do pós-processador, e finalmente publicar o projecto no PG.
  • Acompanhamento de voluntários (Mentoring): todos os voluntários podem participar da integração de novos voluntários. O sistema contém fóruns para debate, tem equipas onde os voluntários se agrupam de acordo com as suas afinidades ou língua, e permite o envio de mensagens para outro utilizador.

Ligações externas[editar | editar código-fonte]

Referências[editar | editar código-fonte]

  1. Distributed Proofreaders. Portuguese statistics. Acedido em 23 de Fevereiro de 2008.
  2. Distributed Proofreaders Europe. Em Português Estatísticas Arquivado em 3 de março de 2016, no Wayback Machine.. Acedido em 23 de Fevereiro de 2008.