Traduzindo a liberdade, descomplicando a Estatística (parte 2)





"Todos os esforços tendem a levar a mente humana
cada vez mais próxima daquela inteligência, mas
que ainda permanecerá sempre infinitamente inatingível"
(Laplace)

Como escrevemos em post anterior, o que chamamos de “graus de liberdade” em análises estatísticas dizem respeito à quantidade de dados que dispomos para fazermos inferências. Por definição, em Estatística nunca temos todos os dados disponíveis acerca do que estamos estudando. Se tivéssemos, não estaríamos fazendo Estatística. Simplesmente estaríamos observando proporções, taxas e razões em uma variável ou num conjunto delas. Essas medidas (proporções, taxas, razões etc.) seriam conclusivas, não dariam margem para incertezas.

A Estatística, como todos sabem, é a área do conhecimento humano que tem a missão de quantificar ou medir justamente as coisas sobre as quais não temos condições de ter certeza. E não temos condições por mais de uma razão: porque o rol completo de dados é grande demais para ser coletado, por ele também ser suscetível a mudar constantemente enquanto o coletamos, e porque não sabemos onde vamos encontrar e colher os demais dados disponíveis além dos que já obtemos.

É uma questão de viabilidade ou não. Tome como exercício pensar num objeto assim. Se você chegar à conclusão que quase tudo na vida é mais ou menos incerto, você tem o dom da Estatística latente no seu coração. E você “provavelmente” levará uma vida mais calma, com mais aceitação da natureza estocástica da vida. Afinal, só temos acesso parcial aos dados. É a tal da “amostra”. Mas quando você não aceita essa realidade pode virar um demônio. Ainda bem que não é pré-requisito entrar em discussão sobre técnicas de amostragem para explicar didaticamente para que serve e como funciona a ideia de grau de liberdade. Ela já é suficientemente complicada de explicar sem um “prologozinho” desses. Ao contrário do que muita gente pensa, definir uma amostra representativa de um objeto é uma das tarefas mais complexas da Estatística. E ainda mais se esse objeto envolver grupos humanos, isto é, se for um objeto sociológico. Deixo aqui, neste pequeno parágrafo de digressão, um site de professor, portanto bem didático, para quem quiser entender uma introdução a esse debate.

Voltando, é intuitivo entender que à medida que vamos coletando mais e mais dados sobre uma variável, estamos cada vez mais perto do seu real comportamento, a forma com ela se apresentaria para nós se tivéssemos a chance de observar os dados para toda a população. Pela lei dos grandes números entendemos que mesmo nunca atingindo esse conjunto populacional por inteiro, estamos, um a um, cada vez mais perto, em média, do rol total de dados. A situação utópica de coletar todos os dados equivale ao grau de liberdade pleno, sem reduções, para um caso em estudo. Essa ideia quer dizer que, com uma quantidade total de dados (lembrando que pode ser infinita), temos liberdade de afirmar qualquer coisa útil a respeito do conjunto de informações descritivas que possuímos daquela variável.

Por outro lado, como o que temos em mãos é sempre apenas uma amostra, perdemos gradativamente nossa liberdade de tirar conclusões diante da restrita quantidade de informações úteis aos cálculos necessários. Esses cálculos precisarão receber pequenos ajustes para que o resultado se aproxime ao que seria obtido em posse de todos os dados. Por isso que, quando vamos calcular o desvio-padrão de toda uma população usando apenas dados amostrais, temos que fazer um ajuste no denominador, o famigerado “-1”. Mas esse não é o principal motivo. Fazemos esse ajuste ao lidarmos com dados amostrais porque a ideia de desvio-padrão exige que usemos “estimadores de parâmetros” para seu cálculo. Um deles é a média. A média é uma medida que traduz de forma muito útil uma distribuição qualquer. Nem todas, mas é uma medida bastante tradicional e tida como pau pra (quase) toda obra. Para que não reste dúvida: sim, podemos calcular um desvio-padrão usando outra medida de tendência central que representar melhor nossa distribuição. Mas não vamos abrir outra digressão aqui. Deixo esse ponto para outra oportunidade. A intenção neste post é ser o mais didático possível, porque “graus de liberdade” exigiria até conhecimentos de projeções de vetores e matrizes para ser rigorosamente explicado. Aqui, no entanto, queremos apresentar uma linha de raciocínio que não mobilize competências além da Estatística básica. O que, diga-se de passagem, não existe na internet.

Então, você deve intuir que, numa distribuição de médias, o rol de dados (a fila de médias em sequência, da menor para a maior, cada uma retirada de uma amostra diferente) é constituído por números (as médias!) muito próximos entre si. Numa amostra qualquer, retirada de uma população sobre a qual há evidente suspeita de normalidade na distribuição da variável em estudo, temos outrossim enorme chance de nossa média não ser tão influenciada pelos escores extremos quanto será pelos medianos mais frequentes (numa distribuição normal os valores médios são mais frequentes).

Em verdade, o que temos aqui é o porquê daquela formulazinha famosa do desvio-padrão (raiz quadra do somatório das diferenças entre cada escore e a média, dividido, esse somatório, pelo número de dados) gerar sempre um resultado subestimado! Os livros geralmente chamam de “tendencioso”, o que complica o entendimento. Mas em palavras simples: a não ser que diminuamos um pouco o denominador (“o número de dados”), o resultado da fórmula do desvio padrão será menor que o valor desvio padrão da população, que é o que queremos de fato saber. Eis o porquê do “-1”! Simulações já provaram que isso não é só lógica. Essa subtração gera realmente um resultado não enviesado pelo uso da média na fórmula do desvio padrão.

O que devemos entender é que ao usarmos um estimador, a média, para o cálculo de desvio, nós já diminuímos um grau de liberdade dos dados. Quando inserimos para o cálculo de uma ideia estatística (a exemplo do desvio-padrão) uma outra medida “derivada” mas não originária dos dados brutos da amostra (pois a média não está na amostra, ela precisa ser calculada), nós delimitamos um parâmetro que não tem a liberdade de variar no rol de dados que passamos a tomar como amostra. É como se nós tivéssemos “gastado” um grau de liberdade ao usarmos o estimador. Enfim, ideia de grau de liberdade serve para ajustar o cálculo com dados de amostras para que seu resultado possa ser considerado válido para a população. E, como vimos, depende da quantidade de informação variável e útil.

Romero Maia