19 de out. de 2017

Rede speciesLink - 15 anos de serviços à comunidade





http://splink.cria.org.br
Esse mês comemoramos 15 anos do lançamento da rede speciesLink e aproveitamos a data para documentar um pouco da sua história.

Em 1999, com o lançamento oficial do programa Biota/Fapesp no estado de São Paulo, teve início o desenvolvimento do sistema de informação ambiental do programa, o SinBiota. Esse sistema tinha por objetivo documentar as coletas feitas pelos diversos projetos do programa integradas a uma base cartográfica, e foi desenvolvido pelo CRIA em colaboração com o Instituto Florestal, o Instituto de Computação e o Instituto de Geociências da Unicamp. O primeiro Atlas do SinBiota foi lançado em dezembro de 2000, integrando os dados dos mais de 20 projetos temáticos.

O desenvolvimento do segundo sistema de informação para o programa teve início em 2001 com o projeto "Sistema de Informação Distribuído para Coleções Biológicas: a Integração do Species Analyst e do SinBiota" ou speciesLink. O objetivo era criar um sistema distribuído de informação sobre espécies e espécimes mantidos em coleções biológicas do estado de São Paulo, associado a um sistema de previsão de distribuição geográfica de espécies, baseado em modelagem matemática.

Os grandes desafios incluíam:
  • a promoção de uma mudança cultural visando o compartilhamento aberto dos dados a qualquer pessoa interessada na Internet;
  • a organização e digitação dos acervos das coleções biológicas (fauna, flora, microbiota) do país e do exterior;
  • a necessidade de listas com nomes aceitos e sinonímia da fauna, flora, microbiota e fungos do Brasil;
  • o desenvolvimento de padrões e protocolos para garantir a interoperabilidade dos sistemas; 
  • o desenvolvimento de uma interface de busca eficiente; e,
  • o desenvolvimento de uma arquitetura distribuída que:
    • não fosse impactada pela entrada de novos provedores na rede;
    • trabalhasse com um modelo de dados padrão, sem interferir na escolha do software utilizado pela coleção para gerenciar seus dados;
    • mantivesse no provedor original o controle e a política de compartilhamento de seus dados.
O sistema on-line foi lançado há 15 anos, em outubro de 2002, com dados do Herbário da Unicamp (UEC), da Coleção de Algas (SPF-Algae) do Instituto de Botânica da USP, da Coleção de Ácaros (AcariESALQ) da ESALQ e das Coleções de Peixes da Unesp de São José do Rio Preto (DZSJRP-Pisces) e da USP Ribeirão Preto (LIRP). O apoio da Fapesp ao desenvolvimento específico da rede speciesLink terminou em outubro de 2005 com 40 provedores de dados e pouco mais de 700 mil registros on-line. Neste mesmo ano, o sistema já contava com alguns indicadores que mostravam a evolução da rede.



Distribuição geográfica dos provedores de dados em 2005




Na sequência do projeto speciesLink, a Fapesp apoiou o desenvolvimento do openModeller (outubro de 2005 a outubro de 2008), um ambiente computacional para a geração de modelos de distribuição potencial de espécies (openmodeller.sourceforge.net). Além do CRIA, o desenvolvimento do openModeller contou com a parceria do INPE – Instituto Nacional de Pesquisas Espaciais e da Escola Politécnica da USP. No âmbito do projeto também foram desenvolvidos vários aplicativos visando auxiliar o trabalho dos curadores na limpeza de seus dados, resultando no relatório dataCleaning. Nesse período, o CRIA também contou com recursos do GBIF (rede de polinizadores, desenvolvimento de ferramentas) e da JRS Foundation.

Em 2006 foi dado início às ações de repatriação de dados de amostras coletadas no Brasil e depositadas nos Jardins Botânicos de Nova Iorque e Missouri. São hoje cerca de 1,5 milhão de registros que representam cerca de 15% dos dados disponíveis na rede speciesLink. A repatriação é fundamental, sendo fonte importante de dados de coletas realizadas nos séculos passados.

Em 2006, por solicitação do Ministério de Ciência e Tecnologia foi publicado o trabalho “Diretrizes e estratégias para a modernização de coleções biológicas brasileiras e a consolidação de sistemas integrados de informação sobre biodiversidade”. Esse trabalho contou com a parceria das Sociedades Brasileiras de Botânica, Zoologia, Microbiologia, da Informação e membros do CRIA, do CGEE e da Secretaria de Política e Programas de Pesquisa e Desenvolvimento do MCT. Esse fato foi importante não só pela estratégia estabelecida, mas pelo processo de discussão que aproximou a comunidade de coleções biológicas com o CRIA e a Rede Nacional de Ensino e Pesquisa, RNP. O CRIA, inclusive, adotou o documento como parte do seu plano estratégico.

Em 2008, a rede SiCol - Sistema de Informação de Coleções de Interesse Biotecnológico foi integrada à rede speciesLink. Com a evolução dos dados da fauna, flora, fungos e da microbiota, 2008 fechou o ano com 150 conjuntos de dados compartilhando cerca de 2,9 milhões de registros. Além dos dados de amostras brasileiras nos Jardins Botânicos de Missouri e Nova Iorque, foram repatriados dados do Museum of Vertebrate Zoology da Universidade da Califórnia, Berkeley. Também foram incorporados os dados sobre a biodiversidade da Amazônia Colombiana da Fundación Puerto Rastrojo.


Distribuição geográfica dos provedores de dados em 2008

Em 2009 teve início o Herbário Virtual da Flora e dosFungos, um dos Institutos Nacionais de Ciência e Tecnologia do país. Esse projeto foi um divisor de águas. Foi a partir do INCT-Herbário Virtual que a infraestrutura de dados e ferramentas passou a ser um componente de uma verdadeira rede de pessoas, instituições e sistemas. Passamos – equipe de desenvolvimento, suporte e manutenção do CRIA – a fazer parte de uma grande rede social, que inclui curadores, técnicos, pesquisadores, especialistas em redes (Internet) e usuários, do país e do exterior. A RNP dá suporte ao CRIA, com o acesso à Internet e com a hospedagem dos equipamentos no seu Internet Data Center. O CRIA dá suporte às coleções biológicas na organização e integração de seus dados à rede. As coleções dão suporte aos pesquisadores e alunos, no depósito e registro de novos espécimes. Os pesquisadores, alunos e demais usuários dão suporte a todo o sistema, enviando seus comentários, desenvolvendo modelos e identificando espécies e locais prioritários para coletas.

A rede hoje integra 470 conjuntos de dados: 235 de animais; 195 de algas, fungos e plantas; 3 de fósseis; 34 de microrganismos e 3 de coleções abrangentes (Fonte: Rede speciesLink). Dos 470 conjuntos de dados, 429 são do Brasil e 41 são de dados coletados no Brasil e mantidos em instituições do exterior. São dados de coleções biológicas de 143 instituições do país e 33 do exterior, além de 4 fototecas mantidas por pesquisadores brasileiros. Das 143 instituições brasileiras, contando diferentes campi como instituição, 100 são universidades e o restante instituições de pesquisa. São 52 universidades federais, 8 regionais, 31 estaduais e 9 privadas.

Distribuição geográfica dos provedores de dados em outubro de 2017
Graças aos desenvolvimentos realizados no contexto do INCT-Herbário Virtual, a interface de busca, além da recuperação de dados textuais, oferece ferramentas para a visualização dos dados em mapas, gráficos, listas, planilhas, resumos, estatísticas, além de aplicativos para visualização, análise e comparação de imagens. A rede também disponibiliza uma série de indicadores e ferramentas de análise de lacunas de dados e conhecimento e de distribuição geográfica de espécies. São compartilhados cerca de 8,8 milhões de registros de cerca de 124 mil espécies aceitas distintas e 1,8 milhão de imagens.

Em outubro de 2017 o uso dos dados através da interface de busca já supera os valores de 2016. Já foram utilizados mais de 600 milhões de registros, o que representa uma média de 2 milhões de registros utilizados por dia. Nesse período também foram servidas mais de 2,5 milhões de imagens, cerca de 9 mil imagens visualizadas por dia. 

A rede speciesLink também alimenta o GBIF, SiBBr e iDigBio com cerca de 4,2 milhões de registros de 158 provedores. O uso desses dados servidos através dessas plataformas não é computado nas nossas estatísticas. Também não dispomos de dados sobre o uso das imagens pela Flora do Brasil 2020.

Ao longo de todos estes anos, mesmo com o apoio financeiro recebido através de projetos e a colaboração de todas as pessoas e instituições que participam da rede, não foram poucos os desafios e as dificuldades. Um sistema deste porte requer financiamento contínuo para renovação do hardware, aprimoramento do software, e suporte técnico, sempre através de uma equipe compatível com o trabalho a ser realizado (no CRIA, nos herbários, nos museus, nas coleções biológicas em geral e na RNP), além de verbas para pesquisa, bolsas, etc. (para uma discussão mais aprofundada, sugerimos a leitura do artigo “The Importance of Biodiversity E-infrastructures for Megadiverse Countries”). Para que a rede consiga dar os próximos passos em direção ao futuro, é preciso que haja compreensão quanto ao grau de investimento necessário para manutenção e expansão do sistema, bem como reconhecimento de que sua importância para a sociedade transcende os interesses políticos de algumas instituições e questões pessoais. O CRIA sente-se privilegiado em ter dado a sua contribuição para a construção de um sistema dessa magnitude e continuará trabalhando para que seu futuro seja ainda melhor.


Equipe do CRIA
19 de outubro de 2017