Previsões (ou não)

“The epistemological value of probability theory is based on the fact that chance phenomena, considered collectively and on a grand scale, create non-random regularity”.
- Andrey Kolmogorov.

Começo de ano é sempre marcado por conversas acerca do futuro. Geralmente cheias de esperança. Afinal, todos possuem sonhos, mesmo aqueles que não se empenham na realização por considerarem os seus sonhos completamente, com o perdão da redundância, fora da realidade. Quem ganha bastante dinheiro nessa época são os trabalhadores da cultura esotérica. Astrólogos, tarólogos, quiromantes etc. oferecem todo tipo de aconselhamento que é amplamente consumido por multidões do senso comum.

É fácil entender porque um novo ano um momento especial para a prática da vidência. Basicamente porque, do ponto de vista que acontece com muita frequência na vida de quase toda pessoa, quanto mais temas-chaves o vidente arriscar seu palpite, maior a chance de acerto. Os erros entram na conta do livre-arbítrio contra o destino. E de forma nenhuma há desprezo no que digo. Todos com bom senso sabem que é quase um crime desdenhar dos sonhos das pessoas.

A História é repleta dessas adivinhações. As profecias podem ser consideradas como evidências do ocultismo solto pelo mundo. O registro histórico da atividade nos oráculos, como o de Amon que previu a trajetória de Alexandre, o Grande; os vaticínios de Nostradamus, especialmente sobre a morte do rei da França, Henrique II; e as famosas previsões de São Malaquias sobre os destinos dos Papas são fatos históricos que desafiam a vã filosofia.

Não há porque subestimar nossa ignorância. Tampouco, desvalorizar nosso conhecimento. Sendo assim, podemos afirmar com alegria que o maior de todos os sonhos que acompanha a humanidade é absolutamente factível: a previsibilidade. Por isso, como uma maneira de encher as cabeças e corações de esperança, escrevo aqui sobre o desejo humano de prever os acontecimentos, e o método mais transparente de se fazer isso: a ciência.

Não, e digo logo de partida, não é possível prever perfeitamente (com 100% de confiança) tudo que se queira sob o sol e além dele. Mas de maneira nenhuma o inverso é verdadeiro. Seria um equívoco sustentar que não se pode prever nada. Os que advogam (entusiasticamente, pro meu espanto) a tese segundo a qual é impossível fazer previsões, ignoram as façanhas do método científico, ou não têm tempo, recursos e disposição para segui-lo com honestidade. A previsibilidade em ciência é um objetivo extremamente trabalhoso e demorado de se atingir. Exige rigor e paciência, e humildade de jamais ter certeza absoluta. Contudo, garanto, é tão recompensador quanto realizar um sonho.

Comecemos intuitivamente. Você não já parou para pensar em como uma pessoa conhecida sua é “previsível”? Com base em que você faz tal julgamento? Com base na observação ao longo do tempo, certamente. Todos fazemos um pouco de ciência no nosso dia a dia sem nos darmos conta disso. A diferença básica entre esse ato espontâneo e o método científico é a sistematização e controle das observações. Sistematização diz respeito a um planejamento de observações que deve elaborado antes de se entrar em contato com o fenômeno a ser pesquisado. E controle diz respeito à objetividade dessas observações. Ser objetivo depende, como o nome já sugere, de sair de si, de não ser apenas subjetivo. Ou seja, ao contrário das profecias, não se pode fazer ciência sozinho. É necessário dividir as observações com pares que sigam o mesmo planejamento, ou tornar possível que esses pares sigam o mesmo planejamento em outra ocasião. A objetividade da ciência é sua característica básica de partilha e replicação.

Haja vista essas condições, podemos indagar: e como podemos considerar os trabalhos etnográficos feitos por pesquisadores isolados durante meses em comunidades que hoje não existem mais? Ótima pergunta. Se tais trabalhos não juntarem provas materiais (de preferência em audiovisual) capazes de garantir credibilidade aos relatos e conclusões perante a comunidade científica, eles não podem ser, objetivamente, considerados confiáveis. Simples assim, embora muitas vezes a comunidade científica não se comporte como uma comunidade científica (cética), mas como uma corporação que somente defende seus pares, fazendo-os ídolos. Enfim, uma pauta para outro artigo... Voltemos. Como a capacidade de prever, para que não haja abuso da boa-fé alheia, é algo penoso de se conseguir, importa reconhecer claramente o que pode ser previsto, até que nível de confiança e, principalmente, o porquê de não ser possível prever (ainda) algo. Nesses últimos casos, ganha relevância extra o estudo das causas do fenômeno imprevisível.

Provavelmente, qualquer pessoa sabe que existem eventos certos e impossíveis. Os demais, consideraremos aqui como “probabilísticos”, embora os eventos tidos como certos ou impossíveis também possam ser, a rigor, considerados probabilísticos, com probabilidade 1 e 0, respectivamente. A probabilidade de um evento ocorrer pode ser sempre expressa por meio de um número entre zero e um. Basta dividir o número de possibilidades do evento ocorrer pelo total de alternativas envolvidas no momento de realização do evento, o espaço amostral. Exemplo tarimbado é o da moedinha. Ao lançarmos uma moeda, somos desejosos que suceda um dos eventos: cora ou coroa. Então nosso dividendo é “um”. Sabemos, no entanto, que nesse lançamento a natureza possibilita um total de duas alternativas: cara e coroa. Logo, nosso divisor será “dois”. Eis a probabilidade de realização do evento que estamos desejosos: 0,5. A coisa pode complicar um pouco se não contermos nossos desejos. Queremos agora tirar pelo menos duas vezes “cara” em 3 lançamentos. Será mesmo que muda tudo? Veremos. Basta seguir o mesmo raciocínio: qual a quantidade de alternativas (o espaço amostral) de 3 lançamentos? Pelo princípio multiplicativo, fazemos 2x2x2=8. Dessas 8 alternativas de eventos, quantas contêm pelo menos 2 caras? Todas, exceto 1-(coroa, coroa, coroa), 2-(coroa, coroa, cara), 3-(coroa, cara, coroa) e 4-(cara, coroa, coroa). Logo, 4/8 = ½ novamente.

Uma técnica muito simples, não? A maior dificuldade da aplicação das leis da probabilidade na pesquisa científica sobre assuntos socioeconômicos decorre do fato de sabermos os eventos que desejamos, mas, na grande maioria dos casos, ignorarmos completamente a quantidade das alternativas de eventos possíveis. Entretanto, não devemos nos curvar a uma visão pessimista segundo a qual as alternativas são infinitas e por isso toda probabilidade tende a zero, tornando a previsão científica um evento impossível. Para lidarmos com isso, basta clareza. O pesquisador deve exaurir suas fontes, primárias e secundárias, de informações objetivas sobre os eventos alternativos, e deixar detalhadamente registrado até onde ele caminhou nessa missão.

Exemplo: o Projeto Genoma foi um dos melhores exemplos desse enorme esforço para se fazer ciência. O Projeto durou 14 anos (1990 a 2003) para sequenciar 3 bilhões de bases do nosso DNA, e para isso consumiu cerca de 3 bilhões de dólares, mobilizando pesquisadores de vários países. Trazendo números como esse para uma estimação de rol de alternativas no que diz respeito a eventos socioeconômicos, vemos que os cientistas das ciências sociais têm a obrigação de serem, na verdade, otimistas. A não ser pelo aporte financeiro que, da mesma forma que as alternativas, é muito menor.

Ao observarmos um fenômeno socioeconômico e isolarmos suas condições de aparição de tal forma que possamos identificar padrões causais, temos a chance de emitirmos uma afirmação sobre as chances de tal evento se repetir dadas circunstâncias semelhantes. Esse é o indispensável estudo das causas que o cientista tem de fazer na avaliação probabilística de cenários. Da mesma forma que as ligações cromossômicas, os elementos totais do conjunto de determinantes para que um fenômeno suceda, além de serem muitos, também mudam suas propriedades causais ao interagirem entre si. Percebe-se, assim, a magnitude hercúlea do trabalho científico sério.

A delimitação clara do problema de pesquisa é condição sine qua non para viabilidade de qualquer pesquisa. Toda pesquisa sem rédeas tende a flertar com o infinito. Temos que abrir mão da possibilidade de conhecer tudo, por ser inviável, pela possibilidade de se conhecer algo relevante, mesmo que probabilisticamente. Devemos nos alegrar por existirem tendências observáveis (seja diretamente pelos sentidos, seja por meio de instrumentos) e passíveis de serem identificadas por um esforço de conhecimento coletivo.

A previsão na ciência é acima de tudo modesta. Toda arrogância frente ao conhecimento é vaidade e nada tem a ver com o método. A única forma que teríamos para dominarmos absolutamente o conhecimento sobre um fenômeno seria estabelecermos controle total sobre o universo de alternativas, suas interações e mutações. Porém, todo cientista maduro sabe que, na prática, ele lida com amostras ou com recortes da realidade que podem estar deixando de fora o famoso cisne negro de Taleb (ou dificultando a falseabilidade de Popper).

O risco permanente de se descobrir errado não é visto pelo cientista sensato como um fator de desmoralização do método. Ele é o motivo para continuar permanentemente na escalada de pesquisa, tal como faz orgulhosamente um Sísifo feliz. A delimitação do problema de pesquisa, o recorte metódico da amostra, objetividade e grande quantidade de observações, exaustão da listagem de alternativas, clareza e detalhamento no registro das práticas de estudo fazem com que a humanidade reconheça grande parte das causas para o acontecimento dos fenômenos e, consequentemente, as chances de sua reprodução no futuro. Porque não basta dizer que com a ocorrência de feriadões haverá, por exemplo, mais acidentes nas estradas. A previsão científica precisa quantificar esse aumento com antecedência para que a sociedade possa preparar um número adequado de profissionais de saúde para atender a demanda. E isso é possível de ser feito.

O grande trunfo da ciência é conseguir observar o fenômeno de tal maneira que torne possível a identificação de padrões ou tendências. Isso seria impossível de se conseguir com apenas uma observação. Mas torna-se algo possível depois de várias observações sistemáticas. Foi justamente a pesquisa sobre observações de grandes contingentes que revelou que um grupo de pessoas agindo aleatoriamente (dentro do que foi delimitado pelo problema de pesquisa) apresenta padrões de resultados comportamentais previsíveis. Um dos melhores fenômenos para exemplificarmos essa assertiva são, infelizmente, os acidentes. Quaisquer que sejam, pois são eventos não intencionais cujas observações, em várias áreas da atividade humana, já contam com boas séries históricas em estudos de hazards e Sociologia do Risco.

Tomemos os acidentes com aviões no Brasil de forma meramente ilustrativa. É razoável acreditar que a cada ano novo, a vontade de todos é que não aconteçam mais acidentes, a meta é sempre zero. Mas dentro de uma série histórica com milhares de voos por ano, podemos destacar períodos interessantes como o triênio 2007, 2008 e 2009. Em 2007, as autoridades aéreas brasileiras terminaram o ano contabilizando 149 acidentes. No ano seguinte, surpreendentemente o número praticamente se repetiu, 155 acidentes: somente 6 acidentes de diferença. Mais uma vez, iniciam 2009 com a intenção de zerar esse tipo de evento e... 160 acidentes: só 5 a mais. Impressionante, não? Ao que tudo indica, enquanto uma dada realidade não sofre intervenções conscientes para efetivação de mudanças, parece que a aleatoriedade das microações determinam uma certa estabilidade do imprevisível, tornando-a previsível.

Mas nem tudo são flores para a capacidade de previsão gerada pela pesquisa científica. O maior obstáculo à acurácia da probabilidade estimada sobre a ocorrência de um evento futuro é a baixa qualidade das fontes de observações. Para se descobrir uma tendência é preciso realmente ter um banco de dados exaustivo sobre eventos delimitados pelo problema de pesquisa. A dificuldade aumenta se se os pesquisadores dependerem de bancos de dados secundários. Não há garantias que as observações foram bem feitas ou mesmo manipuladas por interesses políticos post factum. Por isso que os bancos de dados hoje são a mais nova mina de ouro do mundo. É neles que se pode encontrar os padrões e descortinar as tendências para o futuro.

Esse debate sobre previsibilidade com o método científico fica ainda mais interessante quando cotejado com a noção intuitiva de livre-arbítrio. Se individualmente temos a sensação de que somos livres com nossos pensamentos e atitudes, como podemos aceitar que em conjunto somos apenas reprodutores de padrões verificáveis e previsíveis? Eu não tenho capacidade de responder plena e epistemologicamente a uma pergunta como essa, mas posso apresentar algumas informações que vão ao encontro da previsibilidade, e problematizam a pretensa liberdade mesmo no âmbito individual.

Pesquisas na área de neurociência mostram que é possível observar uma decisão em nosso cérebro antes ser tomada conscientemente por nós. Ou seja, um observador com a ajuda de instrumento apropriado é capaz de prever qualquer escolha que alguém ache que ainda não tomou. As decisões humanas são tomadas automaticamente por estruturas cerebrais programadas para gerar respostas a partir dos nossos próprios padrões comportamentais cristalizados pela trajetória de vida e por predisposições genéticas. Cientistas do Centro Bernstein de Neurociência Computacional conseguiram, com dez segundos de antecedência, adivinhar as escolhas que voluntários foram incumbidos de fazer sobre letras que apareciam aleatoriamente em uma tela. Eles precisavam apenas “livremente” apertar um botão quando escolhessem uma letra. Só que dez segundos antes, como dito, sinais elétricos correspondentes a essa decisão apareciam sempre nas mesmas regiões cerebrais.

Sem dúvida, um mecanismo otimizador do uso da energia na vida cotidiana, mas seu efeito colateral nos custa muito caro. Se tomamos as decisões que precisamos tomar de forma inconsciente, então de onde vem nossa sensação de liberdade na dimensão individual da vida? Vem do fato óbvio de só termos acesso à nossa consciência. Assim, nosso conhecimento sobre nós mesmos acontece no exato momento em que a decisão se eleva à nossa consciência. Nossa apreensão se dá simultaneamente, gerando a impressão subjetiva de controle dos pensamentos e do processo decisório. Para variar, uma verdade inconveniente dessa só emergiu à tona por meio da objetividade efetivada na pesquisa científica.

A ciência segue o sonho humano da previsibilidade não apenas pelos seus resultados, mas principalmente pela sua objetividade que favorece a integração entre as pessoas e o conhecimento da verdade. Longe de ser um devaneio ingênuo, esse sonho já é uma possibilidade real, como vimos, para diversos objetos de pesquisa. Se ainda encontra limites com relação a outros objetos, isso não invalida o método. Dizia Goethe que “a mais bela felicidade do homem que pensa é ter explorado o explorável e venerar calmamente o inexplorável”.

Para a sorte de seus amantes, a ciência conta desde o séc. XVI com o intrigante legado de Girolamo Cardano, o primeiro a propor as leis da probabilidade para o que seria “inexplorável”. Leis que revelam tendências e conseguem calcular nossa chance de estarmos errados. Se pensarmos com simplicidade, vamos concluir que estarmos errados não passa da probabilidade complementar a estarmos certos. É um cálculo que equivale, filosoficamente, a uma boa medida da existência humana. Nas palavras de São Agostinho, “erro, logo existo”. Vamos analisar, então, o erro.

Suponha que numa pesquisa com 100 indivíduos sobre intenção de voto em dois candidatos, Fulano e Beltrano. A amostra apresentou a proporção eleitores em 75% e 25%, respectivamente. Para estimarmos nosso erro devemos ter em mente que, por lógica, ele é inversamente proporcional ao tamanho da amostra, e por isso ele já é estipulado durante o cálculo amostral. Se a nossa amostra tivesse o tamanho do universo, não haveria erro.

O erro que esperamos cometer é diretamente proporcional ao produto dos percentuais e inversamente ao tamanho da amostra. Esse produto é, então, dividido pelo tamanho da amostra e nos fornece o valor da dispersão (variância) do erro (o “erro padrão”) a que estamos submetidos dentro de um modelo de distribuição normal de probabilidades. Estamos assumindo que num eventual rol de várias amostras, os 75% de Fulano é ao mesmo tempo a média, a moda e a mediana da sua distribuição de percentuais. O mesmo vale para o percentual obtido para Beltrano. Por fim, extraímos a raiz quadrada do quociente. Por que? Porque funciona pelo mesmo princípio usado para descobrir a medida de um desvio padrão qualquer a partir da variância. Para o cálculo do quanto os dados variam em média, eliminam-se as diferenças negativas de escores menores que a média elevando essas discrepâncias ao quadrado. A raiz quadrada desfaz o efeito da potência e traz os dados para a unidade de medida original. A chamada “margem de erro”, portanto, é uma medida padronizada (medida em “erros padrões”) e pode ser obtida da seguinte maneira para o caso exemplificado aqui:

σ erro = √(p*q)/n, lê-se um desvio padrão de margem de erro ("erro padrão") é igual a raiz quadrada da divisão entre o produto dos eventos percentuais complementares e o tamanho da amostra.

No caso do nosso exemplo de pesquisa sobre a preferência do eleitorado num caso simples, temos que σ erro = √(75*25)/100 = 4,33

Esse resultado, “4,33”, equivale a 1 desvio padrão. Estamos assumindo que se tivéssemos observado não uma mas várias amostras, o candidato Fulano teria, em média, 75% das declarações de voto; Beltrano, 25%. Cada um desses percentuais seriam o escores centrais em gráficos de curva normal. Os 4,33%, como se referem a amplitude de incerteza dos escores médios (75% e 25%), recebem o nome de “erro padrão”. O erro padrão deve ser somado e subtraído desses percentuais para o cálculo do intervalo de confiança que será nossa estimativa dos verdadeiros percentuais caso fosse entrevistado todo o universo da população.

Na curva normal cada desvio padrão, para mais ou para menos a partir do valor médio, abarca um percentual dos escores observados na amostra. Se, a partir de 75% (valor médio do candidato Fulano) nós andarmos 4,33 pontos percentuais para a direita, atingiremos o escore de 79,33% e teremos abarcado um intervalo de 34,13% de todos os valores possíveis na amostra. Se subtraímos os mesmos 4,33%, vamos andar para esquerda até 70,67%, ou seja, percorremos a distância de 1 desvio padrão a menos a partir do escore observado na amostra (75%). É a partir desse cálculo simples que a análise estatística vai dizer: “se considerarmos 1 desvio padrão como intervalo de confiança para a proporção observada na amostra, podemos afirmar, com 68,26% de certeza que a intenção de votos em Fulano é de no mínimo 70,67% e de no máximo 79,33%, estando fora dessa margem de erro 15,87% para mais ou para menos, ou seja, há 31,74% de chances da verdadeira intenção de voto no universo ainda assim estar fora desse nosso intervalo”. Vale frisar que ao contrário do que lemos nos jornais quase diariamente, o que se chama de margem de erro é o intervalo com o qual garantimos nossa previsão, e não aquele percentualzinho que extrapola nossa estimativa.

Bem, esse exemplo soou um pouco frágil, não? 31,74% de chances de estarmos completamente errados é algo pouco útil. Por isso que a comunidade científica trabalha com um intervalo de confiança de 1,96 desvio padrão para mais e para menos, que fornece 95% de certeza na inferência para o universo. Com esse intervalo de confiança, haveria apenas 2,5% (o tal percentualzinho dos jornais) de chances do verdadeiro valor se situar acima ou abaixo do que prevemos, o erro.

No nosso exemplo, expandiríamos nosso intervalo de confiança para 8,49 pontos percentuais acima e abaixo dos percentuais encontrados na amostra. O preço dessa maior confiança na nossa estimativa é a perda de precisão. Nossa margem de erro é de 66,51% até 83,49% para a possível intenção de voto em Fulano. Uma amplitude de 16,97 pontos percentuais. Pouco útil para qualquer previsão de resultado eleitoral, e isso se deve ao tamanho reduzido da amostra (100). Mas no exemplo ilustrativo ainda garante a vitória sobre Beltrano.

Uma coisa importante de se tentar prever para este ano é o resultado das eleições para Presidente, Governadores, Senadores e Deputados. E o método é só um: realização de muitas pesquisas eleitorais. Mas vale ressaltar que as pesquisas de intenção de voto possuem dois problemas: promovem a intenção de voto no líder (bandwagon effect, ou no bom português efeito maria vai com as outras) e, no mais das vezes, são muito mal feitas ou manipuladas.

O que se deve menos ao método científico que ao fato das pesquisas de opinião serem “uma invenção jornalística” como afirma o matemático Charles Seife, e continuarem sendo realizadas a torto e a direito sem rigor ou transparência. Essas pesquisas terminam só perfazendo sua pior consequência, a influência sobre o resultado em vez de sua previsão. Com efeito, esse tipo de previsão, embora seja muitíssimo importante, não é possível de ser feita aqui neste ainda neste artigo, porque não passaria de uma opinião ingênua ou ideológica mais adequada a panfletos.

Outro assunto super entusiasmante de se prever é qual seleção vencerá a copa do mundo. Uma maneira possível de fazer isso é usar a pontuação do ranking da FIFA e atribuir pesos à seleções; ponderá-las pelo orçamento (salário + valor de mercado + publicidade) que seus jogadores movimentam, e acrescentar um pesinho a mais para o Brasil pelo fato de jogar sempre em casa. O espaço amostral ficará mais complexo com as informações adicionais sobre as seleções. Não podemos mais lidar apenas com as probabilidades a priori de cada seleção, mas com probabilidades condicionadas por informações específicas. Isso é o que se chama de probabilidade bayesiana.

O banco Goldman Sachs, por exemplo, sempre divulga um relatório estatístico com as chances de cada seleção vencer a copa. O parâmetro utilizado pelo banco são os resultados dos jogos de cada seleção nos últimos anos, o que equivaleria, na nossa sugestão ao ranking da FIFA. No relatório sobre a Copa da África do Sul em 2010, por exemplo, o Brasil aparecia com 13,76% de ser hexa. A maior chance entre todas calculadas pelo banco, diga-se de passagem. E o que aconteceu? Prevaleceram os 86,24% de chances do Brasil não ser campeão. Este artigo não tem pernas para ir além da sugestão de outros critérios além dos resultados anteriores.

Tais previsões científicas requerem tempo para organização do banco de dados e formulação de modelo computacional gerador das estatísticas. Como diz o grupo de estudos em probabilidades no futebol da UFMG, universidade que eu tenho profundo respeito e gratidão: “Inúmeros fatores influenciam nas probabilidades de resultado de um jogo de futebol. Assim, qualquer modelo criado para simular o campeonato é necessariamente super simplificado. E este é um dos aspectos mais fascinantes do problema geral de modelagem: como conseguir bem descrever uma situação complexa com modelos simples?”

Para não deixar sem qualquer perspectiva o leitor curioso que chegou até aqui, talvez o modelo mais simplório possível que pode ventilar alguma probabilidade para um esperado hexa, mesmo prescindindo de programas computacionais, é:

P hexa = x1*y1*z1/∑x1*y1*z1... x32*y32*z32, lê-se produto dos pesos da seleção 1 (Brasil) dividido pelo somatório dos produtos de todas as 32 seleções da Copa

Mesmo nesse modelo simples, são 96 casos em que as variáveis precisam ser calculadas de forma a se harmonizarem aritmeticamente. Também seria necessário atentar sobre o grau de correlação entre as três variáveis. Assumindo que uma seleção tem a metade dos pontos da FIFA com relação a uma outra, esse modelo torna possível compensar essa discrepância de qualidade técnica apenas colocando o dobro de dinheiro nos jogadores.

É um modelo simplório e meramente ilustrativo. Mas já dá algum trabalho, percebe? Algo que leva muito tempo e pode tomar muitas noites de sono que não compensam um modelo tão frágil. Mas o rigor e a boa-fé têm um preço. Ao fim e ao cabo, em previsibilidade com probabilidade, na previsão com ciência, só uma coisa mesmo é certa além da chance de estarmos errados: é um sonho que custa, que não se pode sonhar sozinho e que exige que estejamos bem despertos, ao contrário do que diz o senso comum.

____

(download do pdf do artigo).

Δ

Pesquisar este blog

Previsões (ou não)