Saturday, October 18, 2008

Qual abordagem é melhor: clássica ou Bayesiana?

Este é um assunto que mexe com os sentimentos de muitos estatísticos. Alguns defendem fortemente a abordagem Bayesiana outros a clássica. Afinal quem está certo? Será que existe uma resposta coerente para esta pergunta?

Existem argumentos de todos os lados. Bayesianos dizem que algumas metodologias clássicas violam o principio da verossimilhança. Os clássicos alegam que as metodologias bayesianas podem ser usadas para provar qualquer coisa  (e.g., existência de entidades metafísicas). O que podemos afirmar, na verdade, é que ambas abordagens nos trazem coisas boas e ruins. O importante é que a abordagem escolhida seja utilizada de forma consciente e honesta.

Durante todo o texto, consideramos a abordagem Bayesiana subjetiva que não viola o principio da verossimilhança. Como existem muitos argumentos defendendo a metodologia Bayesiana e atacando a metodologia clássica, nestas notas apenas tentamos esclarecer algumas confusões geralmente proferidas em vários lugares, inclusive em universidades. Não faremos uma análise exaustiva sobre as qualidades da metodologia clássica (métodos não paramétricos, métodos robustos, suposições da realidade, etc).

Basicamente, a diferença entre as duas metodologias é a seguinte: A metodologia Bayesiana considera que as quantidades desconhecidas são aleatórias. Enquanto que na clássica, tais quantidades podem ser aleatórias (variáveis latentes) ou não (índices de probabilidades). Ao contrário do que se é propagado, é plenamente possível inserir informação a priori em modelos clássicos. Um exemplo simples segue.

Suponha que queremos analisar a probabilidade de ocorrência de uma enfermidade na população. Podemos pensar no seguinte experimento mental para acessar essa informação. Selecione n pessoas ``ao acaso" e seja X = sum_i X_i o número de pessoas que sofrem da enfermidade. Supondo independência entre as observações teremos que X ~ B(n,p). Porém, instantes depois de formular o experimento um conhecedor da doença nos alerta que sua ocorrência em mulheres é diferente do que em homens. Essa informação a priori pode ser utilizada assumindo um modelo de regressão: p_i = exp(a + b w_i)/(1 - exp(a+bw_i)), em que w_i = 1 se o i-ésimo individuo for mulher e zero caso contrário. Outras formas de modelagem podem ser utilizadas, como por exemplo considerar a forma hierárquica X|p ~ f_p(x) e p~ g_m sendo f_p(x) a densidade de X dado p e g_m a densidade de p que depende de um parâmetro m (na verdade é um índice de uma família de distribuições de probabilidades). Na metodologia clássica, o parâmetro m é estimado usando a densidade marginal de X. Na abordagem Bayesiana o parâmetro m não pode ser estimado, pois isso infringiria o principio da verossimilhança. Isso mostra que de certa forma, a metodologia clássica engloba a metodologia usual Bayesiana subjetivista. (Existe também a estatística Bayesiana não paramétrica, mas não trataremos nestas notas.)


Muitos alunos, pupilos de Bayesianos renomados estão deixando de estudar a metodologia clássica (convergências, distribuições limite, testes de Neyman-Pearson, correções de teste, etc) afirmando que: Se uma abordagem não respeita o principio da verossimilhança, então esta deve ser descartada. Vejamos o que o principio da verossimilhança nos diz:


Seja t nossa quantidade de interesse, considere que x e y são dados observados que nos levam a verossimilhanças proporcionais, ou seja, L(x| t) = c L(y| t) , sendo c uma constante que não depende de t. Então as inferências sobre t devem ser as mesmas se usarmos os dados x ou y.

Este é um principio que parece ser coerente, pois acreditamos que toda a informação está na verossimilhança. O que ocorre na verdade é que este principio força que as inferências dependam apenas dos dados observados. Na teoria freqüentista que usa verossimilhanças (parte da estatística clássica), fixamos o experimento e construímos a verossimilhança. Os procedimentos inferenciais são derivados ANTES de se observar os dados do experimento. Portanto, neste caso, a verossimilhança é uma variável aleatória e todas as inferências levarão em conta os valores não observados do experimento (FIXADO). Vamos ilustrar com um exemplo a violação do princípio da verossimilhança:

Considere o lançamento de uma moeda. Seja X o número de caras observadas em 12 jogadas e Y o número de lançamentos até que se observe 3 caras. Suponha que p é a probabilidade de sair cara e que o interesse é testar p = 0,5 contra p

Situação 1: O observador fixa 12 jogadas e observa o número de caras. Suponha que apareceram 3 caras.

P(X<=3 | H0 verdadeira) = 1/2^(12)*(comb(12,9)+comb(12,10)+comb(12,11)+ comb(12,12)) = 0,07299805 onde comb(a,b) significa combinação de a, b a b. Note que não rejeitamos a hipótese H0 a 5% de significância.

Situação 2: O observador lança a mesma moeda até aparecer 3 caras. Suponha que foram necessárias 12 jogadas.

P(Y>=12| H0 verdadeira)= 1-(comb(10,2)*1/2^11 + comb(9,2)*1/2^10 +comb(8,2)*1/2^9 +comb(7,2)*1/2^8 +comb(6,2)*1/2^7 +choose(5,2)*1/2^6 +comb(4,2)*1/2^5 +comb(3,2)*1/2^4 +comb(2,2)*1/2^3 ) = 0,03271484

Neste caso o valor-p = 0,033 (rejeita H0 a 5% de significância). Perceba que a situação 1 e 2 produzem evidências diferentes contra a hipótese H0. Entretanto, o núcleo das verossimilhanças são iguais. O principio da verossimilhança diz que as evidências contra a hipótese H0 devem ser as mesmas nestas duas situações.

Vejamos como as distribuições se comportam em cada caso:

No caso em que fixamos as jogadas temos uma distribuição binomial. Para este caso temos:

Se p for 1/4 (valor estimado 3/12 = 1/4) então a variância da variável X no caso binomial é 12*1/4*3/4 = 2,25. Contudo, sob a hipótese H0: p=1/2, a variância fica 12*1/4 = 3. Note que não muda muito.

No caso em que fixamos o número de caras e observamos o número de lançamentos, temos uma distribuição binomial negativa. Para este caso temos o seguinte:

Se p for 1/4 então a variância da variável Y no caso binomial negativo é 3*(3/4)/(1/4)^2 = 36. Entretanto, sob a hipótese H0 (p=1/2) a variância fica 3*(1/2)/(1/2)^2 = 6. Ou seja, houve uma grande mudança de variabilidade para valores diferentes de p. Isso provoca maior sensibilidade no teste aumentando o seu poder e a estatística clássica considera isso nas análises enquanto que a bayesiana não.

Basicamente o que ocorre é que a variância dos dados observados segundo o experimento binomial tem comportamento parecido, tanto para p=1/4 quanto para p=1/2. Enquanto que para os dados observados segundo um experimento binomial negativo este comportamento difere bastante. Sabemos disso porque estamos utilizando a informação não observada do experimento (na hora de calcular a variância estamos utilizando a distribuição inteira, com dados amostrado e não amostrados).

Contudo, não é suficiente estudar apenas o comportamento da variância para explicar tal fato. Como o Mr. Stern mostrou, podem existir casos em que dois experimentos equivalentes produzam o mesmo efeito das variâncias que mostramos. É claro que em experimentos equivalentes estes desvios devem ocorrer em todos os momentos e isso não vai causar mudança de evidências. As características intrínsecas de cada distribuição são levadas em conta na inferência clássica. Seria necessário estudar os infinitos momentos conjuntamente de cada distribuição para fazer uma análise minuciosa do porquê os experimentos que produzem verossimilhanças proporcionais podem produzir evidências diferentes contra a hipótese nula, quando utilizamos a estatística clássica.

Assim, pequenos desvios no comportamento da distribuição dos dados para diferentes valores do parâmetro de interesse podem trazer informações sobre o valor do parâmetro. Entretanto, metodologias que cumprem o principio da verossimilhança não detectam essas mudanças, pois a verossimilhança é considerada fixa e não aleatória. Isso força um certo descarte informação.

Por que não considerar tais informações nas inferências?


**Agradeço aos comentários do Mr. Stern que ajudaram a entender melhor esse processo.

3 comments:

Rafael Stern said...

Alexandre,

Achei muito interessante o seu exemplo. Quando você mostrou que o comportamento da variância dos estimadores é bem diferente, fiquei em dúvida: "Será que o princípio da verossimilhança realmente é uma coisa legal?"

No entanto, após pensar bastante encontrei um exemplo que reestabeleceu minha calma. Fiz uso da técnica que o professor Carlinhos sugere: "Volte sempre para o caso mais simples possível na hora de testar o que vale".

O modelo que eu pensei é o seguinte:

O parâmetro de interesse é "t" espaço paramétrico é {1,2}.

Experimento 1:

Observamos uma variável aleatória X com a distribuição:

P(X = 1 | t = 1) = 0.5
P(X = 2 | t = 1) = 0.5
P(X = 2 | t = 2) = 0.5
P(X = 3 | t = 2) = 0.5

Experimento 2:

Observamos uma variável aleatória Y com a distribuição:

P(Y = 1.9 | t = 1) = 0.5
P(Y = 2 | t = 1) = 0.5
P(Y = 2 | t = 2) = 0.5
P(Y = 10^10 | t = 2) = 0.5

Distribuição:

X/t 1 2
-------------
1 | 0.5 0
2 | 0.5 0.5
3 | 0 0.5

Y/t 1 2
------------------
1.9 | 0.5 0
2 | 0.5 0.5
10^10 | 0 0.5


Estudo:

Var(X|t=1) = "média"
Var(X|t=2) = "média"
Var(Y|t=1) = "pequena"
Var(Y|t=2) = "grande"

No entanto, isso não parece ser importante. Se eu observo X = 1.9 ou Y = 1 tenho certeza que t = 1. Se observo X = 3 ou Y = 10^10, tenho certeza que t = 3. Por outro lado, não vejo porque observar X = 2 deveria trazer informação diferente de Y = 2. De alguma forma, os experimentos são idênticos com apenas os rótulos modificados.

Parece-me que a variância do estimador é uma pergunta sobre uma métrica que, em tese, pode não ter uma relação direta com o parâmetro. Isso não acontece com a verossimilhança

Como provocação final deixo o experimento 3

X assume valores no espaço {maçã, banana, abacaxi}

P(X = maçã | t = 1} = 0.5
P(X = banana | t = 1} = 0.5
P(X = abacaxi | t = 2} = 0.5
P(X = banana | t = 2} = 0.5

Aqui nem temos variância do estimador :D

Alexandre Galvão Patriota said...

Oi Rafael,

Muito obrigado pelo exemplo. Ele ajudou bastante a entender certos detalhes.

Já atualizei o texto (basicamente a última parte).

Muito obrigado pela contribuição!!

Abraçso,

Alexandre Patriota

Fabio - JASS said...

Bom dia pessoal, sou relativamente leigo na área de estatística.
Gostaria de saber se existe algum método para análise de dados referentes aos sorteios de loterias da CEF? Alguém tem alguma dica. Obrigado.