O conteúdo desse portal pode ser acessível em Libras usando o VLibras

Fiocruz

Fundação Oswaldo Cruz uma instituição a serviço da vida

Início do conteúdo

Centro de Integração de Dados e Conhecimento para Saúde lança Plataforma de Dados Desidentificados


02/04/2025

Por: Cidacs

Compartilhar:

No dia 9 de abril a equipe do Centro de Integração de Dados e Conhecimento para Saúde estará reunida, virtualmente, para presenciar o lançamento de mais uma inovação: a Plataforma de Dados Desidentificados. Ecossistema de dados agregados que conta com mais de 160 bases diversas e um processo automatizado que atualiza as bases dispostas, conforme a disponibilidade da própria fonte. 

Para chegar a esse resultado foram necessários cinco anos de trabalho, construção de metodologia, acesso a bases diversas, reunião da documentação dos dados (metadados), organização temática das bases disponíveis e desenvolvimento do ambiente de extração. 

Começou em junho de 2020. Três meses desde o decreto da pandemia do novo coronavírus, causador da Covid-19. Os primeiros casos começaram no Brasil e, junto com eles, os primeiros óbitos. As vidas perdidas se acumulavam, e alcançariam o pico do ano no próximo mês (32.881 óbitos contabilizados em julho de 2020). Até que as mortes deixaram de ser contadas, não por quê estivéssemos conseguindo impedir os casos, mas porque, de um dia para o outro, os dados oficiais da pandemia foram indisponibilizados.  

Porém, como disse Carl Sagan, “a ciência é como uma vela que ilumina a escuridão em um mundo assombrado pelos demônios”. Em meio a emergência global de saúde, o Centro de Integração de Dados e Conhecimento para Saúde (Cidacs/Fiocruz Bahia) reinventou e direcionou sua atividade científica para o monitoramento da situação epidêmica no Brasil e para a divulgação das últimas evidências. Esforços que construíram a Rede CoVida. 

Em meio ao apagão de dados, o monitoramento dos casos teve de ser realizado junto às secretarias estaduais, e de boletins do Ministério da Saúde. “Atuei na coordenação da captação de dados, o que foi um grande desafio na época, diante da alta demanda por dados diversos para subsidiar estudos científicos, boletins periódicos e o painel de monitoramento e predição de casos por Covid-19″, relata Natanael Silva, pesquisador do Instituto de Saúde Global de Barcelona (ISGlobal), um dos participantes da Rede. 

Pouco a pouco, o trabalho foi trazendo resultados. “Durante a pandemia foi criado um grupo de epidemiologistas que assessoravam os governadores do Nordeste. Maurício [Barreto, coordenador científico do Cidacs] participava e nós levávamos os dados obtidos para serem discutidos com este grupo”, conta Maria Yury Ichihara, assessora especial do Cidacs. 

Posteriormente, esse trabalho possibilitou a construção de painéis de monitoramento e de modelos matemáticos de previsão dos casos no Brasil. 

O fim da emergência da Covid-19 não diminuiu a riqueza dos dados coletados no período. A equipe entendeu que existem mais bases, com dados administrativos agregados e individualizados, que poderiam compor um ecossistema maior e possibilitar a pesquisadores, estudantes, trabalhadores da saúde e áreas afins, uma maior aplicação dessas informações em seu fazer.  

 

Questões da ciência de dados 

Criado com a intenção de analisar a fundo os processos por trás das iniquidades sociais em saúde, relacionando também questões sociais, econômicas e ambientais, o Cidacs sabia da importância de não realizar o monitoramento da pandemia através apenas das estatísticas de saúde. 

É preciso destacar o ambiente propício que existe no Brasil para esse trabalho. O pesquisador Natanael Silva ressalta a riqueza dos dados administrativos da saúde. “Grande parte desses dados eram provenientes dos sistemas de informação do SUS, que foram essenciais para a produção científica e gerenciamento da pandemia no Brasil”. O pesquisador recorda que poucos países do mundo têm sistemas nacionais de vigilância em saúde informatizados e consolidados como o Brasil. 

Ainda assim, a dispersão das fontes é um desafio. “É um processo demorado buscar esses dados sem saber onde é que está e como baixar, qual é o formato. Agora, temos tudo organizado, no mesmo formato”, afirma Maria Yury, que é também a liderança responsável pelo desenvolvimento da PDD.  

A coleta das bases de dados agregados foi estruturante para outra inovação: o Índice de Desigualdades Sociais para Covid-19 (IDS-Covid). Trata-se de um índice que mede o impacto da desigualdade socioeconômica no contexto da Covid, realizado em parceria com pesquisadores das universidades federais da Bahia (UFBA) e do Paraná (UFPR), da London Schoool of Hygiene and Tropical Medicine (LSHTM), entre outros grupos colaboradores.  

“Começamos a construir a PDD para que todos pudessem acessar os dados. Pedimos ajuda a Fábio Marconso [programador, engenheiro de dados na equipe do ÆSOP] para construir a solução em desktop da plataforma. Também precisávamos organizar a estrutura do banco de dados em SQL”, relata Maria Yury. “Tínhamos duas reuniões por semana, quase três, quatro horas. Às vezes, nós passávamos das 20h da noite discutindo essas questões da plataforma” 

O projeto passou por outras dificuldades, como rotatividade na equipe e dificuldades de financiamento. Integrante da PDD desde o início do projeto, Rafael Felipe da Silva, especialista em Ciência de Dados e pesquisador associado ao Cidacs, ressalta ainda as questões metodológicas que estão por trás da construção desse tipo de repositório. 

“Para cada base criamos um script específico, que precisa dar conta da atualização e coleta das bases. Ainda temos que juntar, processar, transformar em CSV”, compartilha. “Um dos nossos desafios é essa heterogeneidade das fontes de dados”.  

Os dados administrativos que compõem a PDD são oriundos de uma gama variada de fontes: Datasus, Controladoria Geral da União (CGU), Instituto Brasileiro de Geografia e Estatística (IBGE), Sistemas de Informação do SUS, do Instituto Nacional de Pesquisas Espaciais, e dos portais de transparência dos ministérios.  

“Também temos na nossa rotina a tarefa de abrir a nota metodológica, e ver todas as informações para poder construir o dicionário desse dado”, complementa Rafael. “Muitos portais não têm as informações sobre os dados, detalhes das variáveis. Nós fazemos isso”.  

Não é generalizado entre as fontes de dados o hábito de dispor a documentação das bases, com as explicações do que é e o que contém cada campo. Essa é uma informação que o cientista precisa ter contato para compreender as informações com as quais está lidando. Essa tarefa vem sendo realizada pela equipe da PDD, criar e disponibilizar esse conjunto de informações sobre o dado que, neste campo, se chama metadado.  

“Além disso, como nós contamos com a coordenação de uma epidemiologista, selecionamos nossos dados pelo olhar de alguém que entende quais bases são mais relevantes para a pesquisa”, completa Rafael.  

 

Ciência aberta 

Além de se propor a ser uma ferramenta que tornará as informações em saúde mais presentes na rede, a PDD também poderá ser uma ferramenta de aprendizado na pesquisa com dados. Também tem como objetivos apoiar a vigilância epidemiológica, o monitoramento e a análise da situação de saúde, e o desenvolvimento de indicadores e pesquisas. 

Essa é uma iniciativa do Cidacs para acesso a um conjunto de dados aberto aos pesquisadores externos. Por serem dados não-nominais (desidentificados) e de domínio público, não estão sujeitos às mesmas restrições por questões de privacidade e ética que outros dados utilizados nas pesquisas do Centro (saiba mais aqui). 

“A PDD se insere como uma iniciativa de Ciência Aberta”, declara Bethânia Almeida, vice coordenadora do Cidacs. “De modo geral, esse é um trabalho baseado na colaboração, no compartilhamento de conhecimentos. E a PDD contribui muito para esse movimento”.  

A pesquisadora Maria Yury concorda. “Queremos promover a formação e a produção de conhecimento de forma bastante expressiva e aberta. Qualquer pessoa vai poder utilizar”, completa.  

A Plataforma de Dados Desidentificados será oficialmente lançada no dia 9 de abril, às 10h, em evento online e aberto ao público. Além de uma discussão sobre a importância do uso de dados para a pesquisa, também haverá uma demonstração de uso da Plataforma. Para se inscrever e participar do evento, acesse o link: bit.ly/LancamentoPDD.

 

Voltar ao topoVoltar

Conteúdo acessível em Libras usando o VLibras Widget com opções dos Avatares Ícaro, Hosana ou Guga. Conteúdo acessível em Libras usando o VLibras Widget com opções dos Avatares Ícaro, Hosana ou Guga.