Segundo a Wikipédia, “CAPTCHA é um acrônimo da expressão ‘Completely Automated Public Turing test to tell Computers and Humans Apart’ (Teste de Turing público completamente automatizado para diferenciação entre computadores e humanos)”.

Utilizado como ferramenta anti-spam, o captcha é um teste de desafio cognitivo, onde o usuário deve identificar letras e/ou números de uma imagem distorcida, provando que não é um robô e assim validar seu acesso a um determinado site.

A novidade é que o CNPq, que gerencia a Plataforma Lattes, adotou o captcha na quarta-feira da semana passada para acesso aos Currículos Lattes, alegando que foi uma "demanda dos usuários”, “para evitar a extração de informações e a sua publicação indevida por sites não autorizados”.

 

 

Mas as informações não são públicas?

Segundo comentários nas redes sociais, essa decisão foi devido ao compartilhamento de dados do Lattes por sites como o Escavador.  É um site comercial e usa dados públicos, acenando para a Lei de Acesso à Informação.

É discutível que uma lei pensada para promover a transparência governamental possa servir de justificativa para o uso de dados públicos com fins lucrativos (embora não seja diferente da prática de diversas empresas virtuais, que fazem uso comercial massivo de dados dos internautas).

Mas o que quero discutir aqui é a validade do uso do captcha na Plataforma Lattes, prejudicando o trabalho de pesquisadores que se valem dos dados ali registrados para análises as mais diversas. Já existem várias pesquisas exploratórias utilizando dados da plataforma na caracterização de diferentes aspectos de disciplinas, áreas e temáticas da produção científica brasileira. Uma busca apenas na base SciELO retorna 76 artigos com diferentes estudos sobre a plataforma ou usando dados da plataforma.  E isso sem considerar outros trabalhos que não estão indexados na SciELO.

Eu mesma comecei a analisar dados extraídos da Plataforma Lattes em 2010, e desde então já foram 8 publicações - a mais recente será apresentada na próxima Conferência da ISSI (International Society for Scientometrics and Informetrics).

A Plataforma Lattes, criada e mantida pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), órgão do Ministério da Ciência, Tecnologia e Inovação (MCTI), integra três fontes relacionadas à pesquisa no país, reunidas em um único Sistema de Informações:

  1. a base de dados de Currículos;
  2. o Diretório dos Grupos de Pesquisa; e
  3. o Diretório de Instituições.

"Sua dimensão atual se estende não só às ações de planejamento, gestão e operacionalização do fomento do CNPq, mas também de outras agências de fomento federais e estaduais, das fundações estaduais de apoio à ciência e tecnologia, das instituições de ensino superior e dos institutos de pesquisa. Além disso, a Plataforma Lattes tornou-se estratégica não só para as atividades de planejamento e gestão, mas também para a formulação das políticas do MCTI e de outros órgãos governamentais da área de ciência, tecnologia e inovação" (CNPq, s/d).

Por tudo isso, a Plataforma Lattes é uma fonte basilar e valiosa sobre a ciência brasileira, registrando informações da pós-graduação, das instituições de pesquisa, seus quadros de pessoal e sua produção. Uma das fontes da Plataforma Lattes, o Currículo Lattes, "se tornou um padrão nacional no registro da vida pregressa e atual dos estudantes e pesquisadores do país, e é hoje adotado pela maioria das instituições de fomento, universidades e institutos de pesquisa do Brasil" (CNPq, s/d). Em 2012 a Plataforma Lattes contava com mais de 2 milhões de currículos (ALVES; YANASSE; SOMA, 2012).

Através dos Currículos Lattes é possível obter informações que não estão disponíveis em nenhuma base referencial, tais como projetos de pesquisa submetidos, composição de grupos de pesquisa, orientações realizadas e em andamento, artigos em jornais e revistas de divulgação científica, produção em produtos e processos, etc. Por sua riqueza de informações e sua crescente confiabilidade e abrangência, a Plataforma Lattes se tornou elemento indispensável e compulsório à análise de mérito e competência dos pleitos de financiamentos na área de ciência e tecnologia, inclusive reconhecida internacionalmente, com Lane (2010) comentando e elogiando essa fonte.

Mas é sabido que a extração de dados da Plataforma Lattes não é uma tarefa simples. Embora seja de acesso livre, a plataforma está hospedada no que se conhece como deep web, ou web invisível, e a procura e extração de dados é possível apenas através de ferramentas especiais. Existem 3 ferramentas que possibilitam a extração de informações diretamente da plataforma Lattes:

  • Lattes Extrator
  • LattesMiner (ALVES; YANASSE; SOMA, 2012)
  • ScriptLattes (MENA-CHALCO; CÉSAR JUNIOR, 2009).

O Lattes Extrator é uma ferramenta desenvolvida pelo próprio CNPq, e apenas instituições previamente cadastradas podem utilizá-la para extrair informações relacionadas ao seu corpo docente, discente e demais colaboradores. Portanto, o Lattes Extrator é uma ferramenta de uso restrito.

O LattesMiner por sua vez é uma ferramenta automatizada desenvolvida em Java, que permite a extração de informações da Plataforma Lattes com relação aos indicadores de desempenho dos Docentes, Pesquisadores, alunos e programas de Pós-Graduação (ALVES; YANASSE; SOMA, 2012). Segundo os autores, a versão beta da linguagem LattesMiner estará disponível em breve para testes.

Já o ScriptLattes, disponível desde 2009, é uma ferramenta sob uma licença de uso público (General Public License - GPL) baseada num script desenvolvido em Python que não apenas  extrai dados da produção acadêmica registrada na plataforma Lattes, mas também gera relatórios e gráficos diversos, disponibilizando-os livremente em uma página na web que pode ser facilmente acessada tanto pelos avaliadores da CAPES quanto pelo público em geral (MENA-CHALCO; CÉSAR JUNIOR, 2009).

Porém, com a adoção do captcha na Plataforma Lattes, a extração de dados mesmo por essas ferramentas específicas ficou comprometida. Em 2011 o CNPq também adotou este tipo de validação para o acesso aos CVs Lattes, mas foi por pouco tempo.

E agora? Será que esse captcha será definitivo? O que será dos pesquisadores de dados? /o\

 

Referências

ALVES, A. D.; YANASSE, H. H.; SOMA, N. Y. LattesMiner: uma linguagem de domınio especıfico para extração automática de informações da Plataforma Lattes. In: XII WORKSHOP DE COMPUTAÇÃO APLICADA, 12., 2012, São José dos Campos. Disponível em: http://mtc-m18.sid.inpe.br/col/sid.inpe.br/mtc-m18/2013/01.15.16.10/doc/worcap2012_submission_61%20-%20Alexandre%20D.%20Alves.pdf.

CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO (CNPq). Sobre a Plataforma Lattes. Brasília: CNPq, s/d. Disponível em: http://www.cnpq.br/web/portal-lattes/sobre-a-plataforma;jsessionid=79EA0A22A8E2107A0623F0CADA2E0444

LANE, J. Let's make science metrics more scientific. Nature, v. 464, p. 488-489, mar. 2010. Disponível em: http://www.nature.com/nature/journal/v464/n7288/full/464488a.html.

MENA-CHALCO, J. P.; CÉSAR JUNIOR, R. M. ScriptLattes:  an open-source knowledge extraction system from the Lattes Platform. Journal of the Brazilian Computer Society, v. 15, n. 4, p. 31-39, 2009. Disponível em: http://www.scielo.br/scielo.php?pid=S0104-65002009000400004&script=sci_arttext.