Imitação de ciência

Apocalipse Now

18 jul 2020

Autor

Imagem

A Associação Astrológica do Reino Unido publica, desde 1968, um journal — isto é, um periódico “científico” — chamado Correlation, dedicado a divulgar estudos sobre a eficácia da astrologia, a maior parte, como seria de se esperar, com resultados positivos. Fiz uma assinatura em 2015, enquanto pesquisava material para o meu “Livro da Astrologia”, que mantenho ativa até hoje.

Não por masoquismo, como alguns amigos insinuam, mas porque esforços sinceros de usar métodos e processos da ciência para comprovar premissas demonstravelmente falsas funcionam como “testes de estresse” desses mesmos métodos e processos: uma ferramenta que permite concluir que cegonhas entregam bebês talvez não deva ser aceita, sem ressalvas, na análise da eficácia de um medicamento, por exemplo.

Indo a um caso concreto: a edição mais recente do periódico traz uma inovação tecnológica para um tipo clássico de teste de astrologia, os chamados “testes de Vernon Clark”, batizados em homenagem ao astrólogo e psicólogo americano Vernon E. Clark (1911-1967), principal popularizador dos chamados “testes clínicos”, ou “testes de combinação” (matching tests) em astrologia: pede-se a um astrólogo, ou grupo de astrólogos, que combine uma série de biografias, ou perfis psicológicos, aos mapas astrais das personagens correspondentes, a partir de uma situação em que as duas pilhas — de mapas e biografias/perfis — estão arranjadas ao acaso. A suposição é que um nível alto de acerto mostraria que há, de fato, algo especial no conhecimento dos astrólogos.

O teste original conduzido por Clark nos Estados Unidos, entre 1959 e 1961, foi positivo para a astrologia, mas tentativas de reprodução posteriores trouxeram resultados divergentes. Uma meta-análise dos matching tests conduzidos e publicados até 2015 encontrou um efeito positivo, atribuível à astrologia, igual a zero (a meta-análise pode ser consultada no livro “Tests of Astrology”, de Geoffrey Dean et al).

Na mais recente edição de Correlation, temos um teste de combinação conduzido por uma inteligência artificial!

Palavras ao vento

O desenho do estudo é high-tech: um sistema de inteligência artificial compara listas de palavras-chave extraídas de mapas astrais (traçados por computador) e biografias de celebridades (no caso, as palavras-chave são extraídas pelo experimentador humano). Houve cuidado para que a extração das biografias ocorresse antes do desenho dos mapas pelo software, minimizando o risco de vazamento de conteúdo entre as listas.

Obtidas as listagens, a inteligência artificial criou um ranking de similaridade semântica entre cada conjunto de palavras extraído dos mapas astrais e os vários vocabulários vindos das biografias.

Se a astrologia “funciona”, segue o raciocínio do autor, espera-se que os vocabulários extraídos das biografias sejam sistematicamente melhor ranqueados quando cada um é comparado ao vocabulário do mapa astral da personalidade correspondente (o melhor match do vocabulário da biografia de Hugo Chávez deve ser o vocabulário do mapa astral de Hugo Chávez, o melhor match da lista de palavras de biografia de Orson Welles deve ser a lista de palavras do mapa astral de Orson Welles, e assim por diante).

O experimento descrito no periódico foi executado em duas fases. Ao final, havia 73 pares mapa astral/biografia, e uma taxa de acerto com valor-p de 0,0005. O “valor-p” é uma medida normalmente usada para avaliar a significância estatística do resultado de um experimento. No dia a dia da maioria das ciências, um valor-p menor que 0,05 é considerado bom suficiente para que um resultado seja levado a sério. O nível apresentado em Correlation é espantoso – duas ordens de grandeza abaixo do limiar!

Então, vamos todos jogar a astrofísica e a psicologia no lixo e passar a fazer horóscopo? Não necessariamente: esse valor-p foi obtido a partir de apenas seis acertos, ou 8%, de um total de setenta e três combinações. Ou seja, a taxa de “falso positivo” — de atribuição errada de mapa astral a biografia — foi de 92%! Isso soa bem menos glorioso do que sugere o tal valor-p altamente significativo. Nem os testes diagnósticos de farmácia para anticorpo de coronavírus erram tanto.

Peraí. Como assim?

Língua do p

A obsessão das pseudociências com valores-p baixíssimos, mesmo que, na prática, correspondam a efeitos residuais ou inexistentes, é antiga e, infelizmente, espelha um vício comum nas ciências reais, ainda mais em tempos de “publique ou pereça” — quando carreiras acadêmicas são feitas com base no número de publicações, e a decisão de publicar, ou não, depende de métricas burras e burocráticas, entre as quais se destaca o tal “valor-p menor que 0,05”. Aproveitando-se disso, astrólogos, parapsicólogos, homeopatas etc insistem que, se o critério vale para testes de cúrcuma contra câncer ou cloroquina contra COVID-19, por que não para as áreas deles?

No longínquo ano de 2016, a Associação de Estatística dos Estados Unidos (ASA, na sigla em inglês) publicou uma nota advertindo cientistas contra o uso indiscriminado do “valor-p”. A nota da ASA condena tanto as interpretações informais do valor-p – muitas vezes visto, erroneamente, como equivalente à probabilidade de o resultado do estudo ser falso ou ter sido fruto de “mero acaso” – quanto o uso indiscriminado do limiar de 0,05. “O valor-p nunca pretendeu ser um substituto para o raciocínio científico”, disse, na época, o diretor-executivo da ASA, Ron Wasserstein.

O que o valor-p fornece é uma estimativa de o quanto os dados obtidos são incompatíveis com os pressupostos do experimento. Esses pressupostos incluem tanto a chamada “hipótese nula” — a de que o efeito que o experimento busca medir, na verdade, não existe — quanto uma série de hipóteses auxiliares, incluindo, crucialmente, a de que o experimento foi bem concebido, planejado e executado. Dados incompatíveis com uma hipótese nula especialmente forte (de que a Terra é redonda, digamos) devem, portanto, ser vistos com extrema desconfiança.

Artigo publicado na revista Science, no mesmo ano que o manifesto da APA, fez coro às críticas ao uso indiscriminado do valor-p. Assinado por Steven Goodman, da Universidade Stanford, o texto condenava a “noção equivocada” de que “a divisa entre uma alegação cientificamente justificada e uma injustificada é definida por se o valor-p cruzou a ‘linha luminosa’ da significância, excluindo-se considerações externas como evidências anteriores, compreensão do mecanismo ou conduta e desenho experimental”.

No artigo para a Science, Goodman afirma que o estatístico R.A. Fisher (1890-1962), responsável pela introdução do conceito de valor-p, defendia seu uso como “uma de diversas ferramentas para auxiliar o processo fluido e indutivo do raciocínio científico – e não como um substituto desse processo. Fisher usava ‘significância’ apenas para indicar que uma observação merecia ser acompanhada”. No livro Statistical Methods and Scientific Inference, Fischer escreve — talvez com otimismo excessivo — que “nenhum trabalhador científico sustenta um nível de significância que, ano após ano, em qualquer circunstância, leva-o a rejeitar hipóteses; em vez disso, ele trata cada caso particular à luz de suas evidências e ideias”.

Campos nulos

À questão dos pseudocientistas, “por que valor-p valida o trabalho dos outros e não o nosso?”, a melhor resposta seria: “não valida nada pra ninguém”. Como não sou do meio a acadêmico, não faço ideia do abalo que essa solução teria sobre as métricas dos programas de pós-graduação e os sistemas de progresso em carreira científica do Brasil e do mundo. Dada a qualidade de boa parte do que se vem publicando no contexto da pandemia, temo que seria algo do tipo asteroide e dinossauros. O que representa um enorme problema.

No ainda mais longínquo ano de 2012, John Ioannidis publicou um artigo com o título pessimista de “Why Science Is Not Necessarily Self-Correcting” (“Por que a ciência não é necessariamente autocorrigível”).

Ioannidis cita o risco de haver momentos em que “a destruição maciça da evidência, a produção de falsa evidência ou a distorção da evidência são tão abundantes, que é possível que o ambiente científico se torne tão pervertido que as pessoas nem se dão conta do que está acontecendo” e, portanto, os mecanismos de autocorreção do processo científico não são ativados. Como exemplos, ele cita a popularidade da frenologia, no século 19, e da eugenia, no início do 20.

Mais adiante, ele propõe um exercício de fantasia: um mundo imaginário onde toda a ciência é formada por “campos nulos” de pesquisa, onde cientistas se dedicam a estudar fenômenos inexistentes, mas sem jamais se dar conta disso — onde os experimentos geram resultados que não refletem a realidade, mas os vieses dos pesquisadores, as limitações das ferramentas analíticas e os defeitos dos instrumentos e observação.

Não é nada difícil supor que a maioria dos autores que publicam em periódicos como Correlation, Homeopathy ou Journal of the Society for Psychical Research está operando em campos nulos. A questão perturbadora é: quantos dos que publicam em Nature, Science, New England Journal of Medicine ou Lancet ou PNAS — isso para não falar nos onipresentes repositórios de preprints — não estão, também? Tudo indica que sejam uma minoria. Mas de quanto?

O remédio para os “campos nulos”, sugere Ioannidis, seriam replicações rigorosas, onde cientistas põem à prova, de forma crítica, as descobertas anunciadas pelos colegas. Os incentivos para esforços do tipo, no entanto, são cada vez menores, em vários segmentos. Antes da pandemia, algumas áreas, como a psicologia, vinham se esforçando para pôr a casa em ordem, mas a emergência global, somada à polarização ideológica, parece ter criado toda uma nova indústria de campos nulos altamente resistentes à crítica racional. Quando os ânimos se aquietarem, a faxina, principalmente na área de saúde, terá de ser imensa – supondo que, um dia, venham mesmo a se aquietar.

Carlos Orsi é jornalista, editor-chefe da Revista Questão de Ciência e coautor do livro "Ciência no Cotidiano" (Editora Contexto)

Imitação de ciência

Palavras ao vento

Língua do p

Campos nulos

Mais Acessadas

Saúde mental e a lógica perversa da psicanálise

Ceticismo performático: a maquiagem do negacionismo

O Lamarck que nunca existiu

Filosofia da ciência para além de Popper

Auto-hemoterapia, pseudociência com versão brasileira

Sua Questão

Tags

método científico

Saúde

pseudociências

história

políticas públicas

COVID-19

coronavírus

filosofia

psicologia

Pandemia

jornalismo

evolução

biologia

política científica

universidade

medicina alternativa

comunicação

homeopatia

vacinas

física

Busca em Questão

Atendimento à imprensa