segunda-feira, 2 de agosto de 2021

Os dados CoVid-19

A pandemia CoVid-19 está a gerar uma enorme quantidade de dados, que estão a ser utilizados por cientistas, em todo o mundo, para ajudar a perceber um fenómeno novo, como evolui, que efeitos tem sobre a população, quais são as perspectivas de a vacinação nos devolver a liberdade de circulação, etc.
Os dados, correctos e actualizados na hora, desempenham um papel fundamental nesta batalha, mas deve registar-se que nem todos os países vêem esta questão da mesma forma, e que Portugal é um mau exemplo, ao disponibilizar os dados em relatórios no formato PDF (!) que têm de ser lidos manualmente.
Felizmente, a comunidade de cientistas de dados Data Science for Social Good Portugal faz a sua leitura diária e disponibiliza todos os dados oficiais no formato CSV no seu repositório CoVid-19.
O formato CSV (comma separated values: valores separados por vírgulas) é um formato em texto, que pode ser aberto em múltiplas ferramentas, e em que a primeira linha do ficheiro é constituída pelos cabeçalhos de todas as colunas e todas as linhas seguintes são os valores respectivos.
Outro repositório importante é o repositório CoVid-19 do Center for Systems Science and Engineering (CSSE) at Johns Hopkins University, por certo um dos mais completos do mundo.
Basicamente, todos os países disponibilizam os seus dados, e várias organizações procedem à sua colecção, como, por exemplo, o Worldometer. No Worldometer, pode encontrar-se a lista de fontes utilizada.
Uma questão importante é que dados devem, e podem, ser fornecidos, e a resposta a esta questão tem variado ao longo do tempo, de acordo com a própria evolução da doença, do seu impacto nos sistemas de saúde, da descoberta das vacinas, etc.
Assim, se inicialmente se olhava para o número de casos confirmados, quer o seu valor diário, quer o valor acumulado, rapidamente se percebeu que dados como o número de óbitos, número de hospitalizações (no nosso caso, camas ocupadas), percentagem da população inoculada, janela de observação, dimensão da unidade territorial sob observação, utilização de valores relativos, desempenhavam um papel importante na análise dos dados disponíveis.

Casos e óbitos dia a dia, desde o primeiro dia, e médias móveis de 7 dias

A simples observação desta figura, com as séries temporais de casos e óbitos e médias móveis de 7 dias (que filtram os efeitos dos dias da semana), permite perceber imediatamente que as médias móveis estão sujeitas a menos oscilações, e que estamos a sair da chamada quarta vaga.
Olhando melhor, e relacionando as curvas da casos e de óbitos, nota-se que para o mesmo número de casos há actualmente menos óbitos, e somos convidados a pensar nisso.
É aqui que os dados deixam de ser números e passam a ser manifestações de fenómenos concretos, mais complexos, cujas respostas se podem eventualmente obter explorando os dados existentes. Certamente que as respostas hospitalares melhoraram, que as novas variantes do vírus se manifestaram, que as vacinas começaram a surtir efeito, etc. Mas quando e como?

Sem comentários:

Enviar um comentário