27 de dez. de 2023

A peregrinação da infraestrutura de dados abertos do CRIA

Equipe do CRIA

O CRIA foi constituído em dezembro de 2000 como uma sociedade civil sem fins lucrativos, e recebeu o título de Organização da Sociedade Civil de Interesse Público, OSCIP, em 2002. Trabalhamos em rede com a comunidade científica na organização e disseminação de dados, informações e conhecimento sobre biodiversidade, criando e mantendo infraestruturas digitais de acesso público e aberto.

Ao longo dos seus 23 anos, o CRIA desenvolveu vários sistemas de acesso público. Esse artigo indica alguns marcos sobre a infraestrutura física necessária para manter esses sistemas.

2001 - 2013

  No início dos desenvolvimentos de seus sistemas de informação, o CRIA contou com o apoio da Fapesp, sob o mandato do diretor científico José Fernando Perez. Além do apoio ao SinBiota (Sistema de Informação do Programa Biota/Fapesp), o CRIA recebeu recursos para o desenvolvimento da rede speciesLink, da ferramenta openModeller e do site Flora Brasiliensis, que também contou com o apoio da Natura e Fundação Vitae. Nesta fase inicial do CRIA, toda infraestrutura necessária -  computadores, rede e roteador - foi adquirida com recursos da Fapesp. O CRIA, instalado em sua nova sede em Barão Geraldo em Campinas, se conectava à internet através de uma fibra ótica aérea instalada nos postes entre o roteador na sede do CRIA e o roteador da Fapesp na Unicamp.

Com exceção do SinBiota, transferido em julho de 2011 para a Unicamp por solicitação do Prof. Carlos Joly, coordenador do programa Biota, e do Dr. Carlos Henrique de Brito Cruz, na época Diretor Científico da Fapesp, todos os demais sistemas continuaram online sob a curadoria do CRIA, gerando novos produtos. 

2013 - 2018

http://4.bp.blogspot.com/-iOEsPcygDz0/Up3c9KP3YDI/AAAAAAAABM8/JCbWOPyUl3E/s400/idc2.png Em 2013 os equipamentos que abrigavam os sistemas de informação desenvolvidos pelo CRIA e instituições parceiras foram transferidos para o Internet Data Center (IDC) da RNP em Brasília, resultado de uma articulação entre o CRIA, RNP e CNPq. Além da redução dos custos, essa mudança melhorou a segurança e conectividade no acesso aos sistemas. Para gerenciar os sistemas no IDC em Brasília, a RNP integrou o CRIA à Redecomep, Rede Comunitárias de Educação e Pesquisa de alta velocidade da região de Campinas. 



2018 - 2021

  No final de 2018, com a celebração do 20º. termo aditivo ao Contrato de Gestão entre o MCTIC e a RNP, foi dado um importante passo visando assegurar a permanência da e-infraestrutura speciesLink. Esse termo aditivo assegurou o apoio da RNP na migração dos sistemas que compõem a rede speciesLink do Internet Data Center (IDC) em Brasília para o serviço em nuvem do Centro de Dados Compartilhados (CDC/RNP) em Recife. A transferência de todos os sistemas públicos de informação mantidos pelo CRIA para o CDC/RNP foi concluída no mês de abril de 2019, com o auxílio da equipe da RNP.

2021 - ...

https://upload.wikimedia.org/wikipedia/commons/thumb/2/2f/Google_2015_logo.svg/251px-Google_2015_logo.svg.png  Em 2021 o CRIA recebeu um comunicado da RNP sobre a impossibilidade de manter os serviços do CDC/RNP que provia os serviços em nuvem para a manutenção de todos os sistemas públicos do CRIA. Foi dado início à busca de novos parceiros que pudessem prover esses serviços ou recursos para a aquisição de uma nova infraestrutura física para o CRIA. Em 2021, com auxílio do Tasso Azevedo, coordenador geral do MapBiomas, o CRIA enviou uma proposta ao Google e imediatamente recebeu créditos para utilizar os serviços do Google Cloud Platform (CGP) por um período estimado de seis meses.

Foi dado início à terceira transferência de todos os sistemas do CRIA, do Centro de Dados Compartilhados da RNP (CDC/RNP), para a plataforma em nuvem do Google (GCP). Novos créditos foram cedidos pelo próprio Google em 2022 e 2023 que, com a otimização do seu uso, deverão durar até maio de 2024.

O processo de transferência para o GCP foi muito mais complexo por envolver a reestruturação de toda a infraestrutura de dados do CRIA. Além da transferência propriamente dita ao GCP, o CRIA se preocupou com a otimização do uso dos recursos para que os créditos concedidos durassem mais tempo. Além dos créditos, recebemos apoio técnico da equipe do Google principalmente no processamento das imagens da rede speciesLink. Na época tínhamos mais de 4,5 milhões de imagens que tinham que ser reprocessadas em um curto período de tempo.

Internet e a rede de provedores de dados

Apesar de não abrigar os sistemas e dados de acesso público mantidos pelo CRIA, a RNP continua fundamental para o avanço e disseminação do conhecimento científico sobre a biodiversidade do país. A RNP é responsável pela Rede Ipê, oferecendo acesso à internet de qualidade às instituições acadêmicas do país. 

A figura a seguir apresenta a localização dos provedores de dados da rede speciesLink no Brasil, Colômbia, Estados Unidos e Europa.

A integração dos dados das coleções em todos os estados do Brasil, na Colômbia, Estados Unidos e  Europa, bem como o acesso aos dados do speciesLink por usuários e outras infraestruturas do mundo  (GBIF, iDigBio, VertNet e SiBBr) é possível graças à infraestrutura da rede Ipê.

A força do speciesLink, sem dúvida, está nas parcerias estabelecidas e no trabalho em rede. 

Obrigada a todos que contribuiram com seus dados, conhecimentos e sugestões!

Um ótimo 2024 para todos nós!