"Todos os esforços tendem a levar a mente humana
cada vez mais próxima daquela inteligência, mas
que ainda permanecerá sempre infinitamente inatingível"
(Laplace)
Como
escrevemos em post
anterior,
o que chamamos de “graus de liberdade” em análises estatísticas
dizem respeito à quantidade de dados que dispomos para
fazermos inferências.
Por definição, em Estatística nunca temos todos os dados
disponíveis acerca do que estamos estudando. Se tivéssemos, não
estaríamos fazendo Estatística. Simplesmente estaríamos observando
proporções, taxas e razões em uma variável ou num conjunto delas.
Essas medidas (proporções, taxas, razões etc.)
seriam conclusivas, não dariam margem para incertezas.
A
Estatística, como todos sabem, é a área do conhecimento humano que
tem
a missão de quantificar ou medir justamente as coisas sobre as quais
não temos condições de ter certeza. E não temos condições por
mais de uma razão: porque
o rol completo de dados é grande demais para ser coletado, por
ele
também
ser
suscetível a mudar
constantemente enquanto o
coletamos,
e
porque não sabemos onde vamos encontrar e colher os demais dados
disponíveis além
dos que já obtemos.
É
uma questão de viabilidade ou não.
Tome como exercício pensar num objeto assim. Se você chegar à
conclusão que quase tudo na vida é mais ou menos incerto,
você tem o dom da Estatística latente no seu coração. E
você “provavelmente” levará uma vida mais calma, com mais
aceitação da natureza estocástica da vida. Afinal, só
temos acesso parcial aos dados. É a tal da “amostra”. Mas
quando você não aceita essa realidade pode virar um
demônio. Ainda
bem que
não é
pré-requisito
entrar em discussão sobre técnicas de amostragem para explicar
didaticamente
para
que serve e
como funciona a
ideia de grau de liberdade. Ela já é suficientemente complicada de
explicar sem um
“prologozinho” desses.
Ao contrário do que muita gente pensa, definir uma amostra
representativa de
um
objeto é uma das tarefas mais complexas da Estatística. E ainda
mais se esse objeto envolver grupos humanos, isto é, se for um
objeto sociológico. Deixo aqui, neste pequeno parágrafo de
digressão, um
site de professor, portanto bem didático, para
quem quiser entender uma
introdução a esse debate.
Voltando,
é
intuitivo entender que à medida que vamos coletando mais e mais
dados sobre uma variável, estamos cada vez mais perto do seu real
comportamento, a forma com ela se apresentaria para nós se
tivéssemos a chance de observar os dados para toda a população.
Pela lei
dos grandes números entendemos
que mesmo nunca atingindo esse conjunto populacional por inteiro,
estamos, um a um, cada vez mais perto, em média, do rol total de
dados. A situação utópica de coletar todos os dados equivale ao
grau de liberdade pleno, sem reduções, para um caso em estudo. Essa
ideia quer dizer que, com uma quantidade total de dados (lembrando
que pode ser infinita), temos liberdade de afirmar qualquer coisa
útil a respeito do conjunto de informações descritivas que
possuímos daquela variável.
Por
outro lado, como o que temos em mãos é sempre apenas uma amostra,
perdemos gradativamente nossa liberdade de tirar conclusões diante
da restrita quantidade de informações úteis aos cálculos
necessários. Esses cálculos precisarão receber pequenos ajustes
para que o resultado se aproxime ao que seria obtido em posse de
todos os dados. Por isso que, quando vamos calcular o desvio-padrão
de toda uma população usando apenas dados amostrais, temos que
fazer um ajuste no denominador, o famigerado “-1”. Mas
esse não é o principal motivo.
Fazemos esse ajuste ao
lidarmos com dados amostrais porque
a ideia de desvio-padrão exige que usemos “estimadores de
parâmetros” para seu cálculo. Um deles é a média. A média é
uma medida que traduz de forma muito útil uma distribuição
qualquer. Nem todas, mas é uma medida bastante tradicional e tida
como pau pra (quase) toda obra. Para
que não reste dúvida: sim, podemos calcular um desvio-padrão
usando outra medida de tendência central que representar melhor
nossa distribuição. Mas não vamos abrir outra digressão aqui.
Deixo esse ponto para outra oportunidade. A intenção neste post é ser
o mais didático possível, porque “graus de liberdade” exigiria
até conhecimentos de projeções de vetores e matrizes para ser
rigorosamente explicado. Aqui, no entanto, queremos apresentar uma
linha de raciocínio que não mobilize competências além da
Estatística básica. O que, diga-se de passagem, não existe na
internet.
Então,
você
deve intuir que, numa distribuição de médias, o rol de dados (a
fila de médias em sequência, da menor para a maior, cada uma
retirada de uma amostra diferente) é constituído por números (as
médias!) muito próximos entre si. Numa amostra qualquer, retirada
de uma população sobre a qual há evidente suspeita de normalidade
na distribuição da variável em estudo, temos outrossim enorme
chance de nossa média não ser tão influenciada pelos escores
extremos quanto será pelos medianos mais frequentes (numa
distribuição
normal os valores médios são mais frequentes).
Em
verdade, o que temos aqui é o porquê daquela formulazinha famosa
do desvio-padrão (raiz
quadra do somatório das diferenças entre cada escore e a média,
dividido, esse somatório, pelo número de dados) gerar
sempre um resultado subestimado!
Os
livros geralmente chamam de “tendencioso”, o que complica o
entendimento.
Mas
em palavras simples: a
não ser que diminuamos um
pouco
o denominador (“o
número de dados”),
o
resultado da fórmula do desvio padrão será menor que o valor
desvio padrão da população, que é o que queremos de fato saber.
Eis o porquê do “-1”! Simulações
já provaram que isso não é só lógica. Essa subtração gera
realmente um resultado não enviesado pelo uso da média na fórmula
do desvio padrão.
O
que devemos entender é que ao usarmos um estimador, a média, para o
cálculo de desvio, nós já diminuímos um grau de liberdade dos
dados. Quando inserimos para o cálculo de uma ideia estatística (a
exemplo do desvio-padrão) uma outra medida “derivada” mas não
originária dos dados brutos da amostra (pois a média não está na
amostra, ela precisa ser calculada), nós delimitamos um parâmetro
que não tem a liberdade de variar no rol de dados que passamos a
tomar como amostra. É como se nós tivéssemos “gastado” um grau
de liberdade ao usarmos o estimador. Enfim, ideia de grau de
liberdade serve para ajustar o cálculo com
dados de amostras
para
que
seu resultado possa
ser considerado válido para a população. E, como vimos, depende da
quantidade de informação variável e útil.
Romero Maia
Inst.: @SimpliciDados