29/04/2015
Por: André Bezerra (Icict/Fiocruz)
Com o volume cada vez maior e diversificado de informações que é produzido diariamente, novas tecnologias e soluções vem redefinindo a forma de se trabalhar com dados e estatísticas. Uma delas é o big data, conjunto de abordagens de tecnologia da informação elaborado para lidar com esse gigantesco universo. Pensando nas vantagens e benefícios desse modelo para o campo da saúde, foi criado na Fiocruz o projeto Big Data em Saúde, que pode contribuir para a prevenção de doenças e promoção da saúde por meio de análises complexas e mais rápidas.
Big data é uma estratégia para captura, armazenamento e análise de grandes quantidades de dados. O setor saúde já trabalha com um grande volume de informações, mas o que é diferente com essa proposta é a possibilidade de trabalhar com uma maior variedade de informações. “Até o momento, trabalhamos com sistemas de bancos de dados estruturados, e a abordagem big data é um pouco disruptiva nesse sentido, não utilizando apenas dados estruturados, mas dados não estruturados, mídias sociais, dados de equipamentos e dispositivos conectados à internet e muitos outros”, explica Marcel Pedroso, um dos coordenadores do projeto.
Bastante utilizado por empresas de serviços de internet, o big data é uma inovação que não traz benefícios apenas a atividades comerciais. Aos poucos, instituições públicas em todo o mundo passam a percebê-la como ferramenta para a pesquisa científica, gestão e serviços públicos aos cidadãos. “Existem hoje alertas para epidemias, por exemplo a gripe influenza, nos Estados Unidos, que foram detectados a partir de análises das redes sociais. É possível monitorar isso quando aumentam postagens ou buscas com por termos como influenza ou remédios para gripe”, ilustra.
Elaborado pelo Laboratório de Informação em Saúde (Lis), ao lado do Centro de Tecnologia da Informação e Comunicação em Saúde (CTIC), ambos do Instituto de Informação e Comunicação Científica em Saúde (Icict/Fiocruz), o projeto tem coordenação dos pesquisadores Marcel Pedroso e Christovam Barcellos, do Lis, e de Jorge Nundes, do CTIC, na área de infraestrutura. A iniciativa já obteve registro como grupo de pesquisa junto ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq). Além do Icict, estão envolvidos parceiros como o Laboratório Nacional de Computação Científica (LNCC), o Centro de Estudos Avançados de Governo e Administração Pública (CEAG/UnB) e o Instituto Nacional de Pesquisas Espaciais (Inpe).
O grupo pretende atuar em três diferentes eixos: (i) extração, tratamento e armazenamento de grandes quantidades de dados; (ii) análise preditiva, por meio do desenvolvimento de algoritmos de processamento de dados e análise visual, que proporcionará soluções para a apresentação visual das informações e sua disponibilização, e, (iii) infraestrutura, que é sua primeira tarefa. “A aquisição dos equipamentos está em andamento, para a montagem de um cluster de big data baseado na tecnologia Hadoop”, explica Pedroso. O cluster será uma estrutura robusta, com capacidade inicial de 100 Terabytes de capacidade de armazenamento, que estará conectada à internet por meio de fibra ótica de alta capacidade e integra vários servidores de processamento de dados simultaneamente.
O Icict estará gerenciando uma grande infraestrutura de armazenamento, organização e acesso de dados de saúde e de interesse para a saúde, que futuramente estará disponível à comunidade científica e de gestão em saúde no país. “Os estudos tendem a se ampliar na medida em que forem sendo incorporados novos dados de outros setores e que sejam disponibilizadas ferramentas de análise mais acessíveis e simples para o usuário. Com o tempo, esperamos que estas ferramentas e dados estejam também acessíveis a gestores de saúde, que podem procurar padrões nos dados do sistema de saúde sob sua responsabilidade”, informa Barcellos.
Para a aquisição dos equipamentos e capacitação dos profissionais envolvidos, o projeto obteve fomento da Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro (Faperj), contemplado com R$ 200 mil. Também foi contemplado com o Programa de Indução à Pesquisa e Desenvolvimento Tecnológico do Icict/Fiocruz, com R$ 20 mil.
‘Novas ferramentas e novas habilidades’
A perspectiva de inovação introduzida pelo big data vem exigindo um grande esforço de capacitação das equipes envolvidas no projeto. “É uma mudança de paradigma sobre como avaliar e interpretar os dados. Isso requer novas ferramentas e novas habilidades”, avalia Pedroso. Desde o início do ano, pesquisadores, estudantes, técnicos e demais colaboradores vem participando de atividades de treinamento e atualização em torno do tema, como o 13º Programa de Verão do LNCC, realizado em fevereiro, em Petrópolis (RJ). Também foram realizadas visitas técnicas ao Centro Nacional de Monitoramento e Alertas de Desastres Naturais (Cemaden), em Cachoeira Paulista (SP).
“Participamos da Jornada de Ciência de Dados, onde pudemos estabelecer parcerias de estudo importantes”, conta o pesquisador do Lis em epidemiologia Cristiano Boccolini, que integra o grupo e tem entre suas atribuições estabelecer associações entre bancos de dados e estrutura-los para diversas análises. Além dos cientistas de dados, também participaram profissionais de infraestrutura e desenvolvimento. “Foi uma capacitação importante para socializar conhecimentos em um centro de referência no país”, avalia Jefferson Lima, desenvolvedor do CTIC. Nos próximos meses, a Fiocruz também realizará um seminário e oferecerá minicursos sobre assuntos relacionados a big data, no âmbito do projeto.
Dentre outras instituições parceiras do projeto, o grupo tem interfaces com o Ministério da Saúde, o DataSUS e universidades federais como UnB, UFRJ e UFMG, e instituições internacionais como o Institute for Health Metrics and Evaluation, ligado à Universidade de Washington, nos Estados Unidos, que calcula o índice global de cargas de doenças (GBD). Uma das atividades do projeto será desenvolver a infraestrutura necessária em computação científica para calcular o índice no país, por estado.
A expectativa do Icict é se tornar uma das referências nacionais em análise de grandes volumes de dados na saúde. “No mundo todo está aumentando o interesse pela análise de grandes bancos de dados. No Brasil em especial, estamos acumulando uma enorme quantidade de dados que não podem mais ser analisados de maneira tradicional, baseada em hipóteses prévias e testes estatísticos simples. O Icict, e o Lis principalmente, tem recebido várias demandas de gestores de saúde para analisar dados gerados pelo SUS e relacioná-los com processos ambientais, sociais e políticos que estão em curso. Estamos ampliando o nosso escopo de trabalho e cumprindo nosso papel histórico institucional de fortalecimento da capacidade e avaliação das políticas públicas e das condições de saúde da população brasileira”, conclui Christovam Barcellos.
Mais em outros sítios da Fiocruz