Saturday, November 15, 2008

Writing a Research Paper in Mathematics

Algumas dicas interessantes dadas por Ashley Reiter de como escrever artigos nas áreas de matemática, probabilidade e estatística podem ser encontradas aqui.

Boa leitura.

Tuesday, October 28, 2008

Controlando versões de um documento

Neste post descreveremos como instalar e utilizar o svn (subversion), um controlador de versões de código aberto. Estamos assumindo uma distribuição Ubuntu ou qualquer fork do Debian.

O subversion é um programa que controla todas as versões de um documento, desde a data da criação até a última modificação, além disso o programa consegue gerenciar um grupo de usuários que modificam o mesmo arquivo. Existe um repositório onde ficam todas as versões de todos os documentos criados para que todas as pessoas envolvidas tenham acesso às versões, depois de instalado o subversion (sudo apt-get install subversion) o usuário precisar dar um checkout no repositório fazendo svn checkout svn://endereço (logo após digitar o login e senha), com esse comando o usuário irá baixar para sua máquina todos os arquivos disponíveis no repositório. O controlador trabalha dentro de um diretório especial chamado /trunk. Dentro dele devem estar todos os arquivos que estão sob controle de versão, é importante saber que os comandos devem ser dados dentro deste diretório.

Imagine que várias pessoas estão envolvidas em um projeto e o repositório está no endereço 200.200.3.4 dentro do diretório /projetos/trunk. Então cada pessoa envolvida deve criar um diretório chamado projetos (dentro do diretório /trunk) e entrar nele, após isso deverá digitar o seguinte comando num terminal

svn checkout svn://200.200.3.4/projetos/trunk (digitar o login e senha),

neste momento (se o sistema aceitou seu login e senha) os arquivo estão sendo copiados para seu computador. Agora suponha que você alterou um arquivo, com o comando svn commit -m "Comentários da modificação" os arquivos modificados serão enviados para o repositório principal para que todos as pessoas envolvidas no projeto tenham acesso as suas modificações. Pra adicionar um arquivo no repositório você deve digitar o comando

svn add caminho_do_arquivo

e para atualizar os seus arquivos você deve digitar svn up. É comum modificar vários arquivos e esquecer qual arquivo foi modificado para isso existe o comando svn status que listará todos os arquivos que você modificou e ainda não atualizou o repositório principal. Para visualizar o log da última mudança basta digitar

svn log -r HEAD -v

Existem outros comandos como svn mv, svn cp, svn rm que significam mover, copiar e remover respectivamente os arquivos do repositório.

Este programa pode ser muito útil para pesquisadores que escrevem artigos e livros em conjunto. Muitas dores de cabeça podem ser evitadas com este eficiente controlador de versões.

Para detalhes sobre o subversion veja aqui e a wiki

Rodando simulações em uma rede linux

Nas redes de computadores das universidades é muito comum encontrar computadores bloqueados com o seguinte aviso: "Rodando simulações". Aqui explicaremos uma forma de rodar uma simulação em uma rede linux deixando o computador disponível para que outros usuários possam utiliza-lo.

Devinculando o processo do seu login

Vamos supor que você queria rodar o algoritmo Simulacao.R no software estatístico R. O procedimento mais conhecido é digitar a letra R num terminal e chamar esse script com o comando source('Simulacao.R') ou digitar apenas echo "source('Simulacao.R')" | R --no-save > teste.txt, o último comando executa o arquivo Simulacao.R e salva os resultados no arquivo teste.txt sem salvar o "workspace", para mais opções veja man R. Se você executar qualquer um dos dois comandos e finalizar sua sessão o kernel automaticamente encerrará todos os programas em execução que estão vinculados ao seu login.

Uma forma bem simples e eficiente para evitar esse problema é utilizando o comando nohup, assim para executar o script Simulacao.R devemos digitar num terminal

nohup echo "source('Simulacao.R')" | R --no-save > teste.txt &

(o último simbolo é um e comercial)

e pronto, agora você pode deslogar e numa outra hora apropriada abrir o arquivo teste.txt e verificar os resultados.

Uma outra forma que será útil apenas para quem tiver em casa um computador conectado a internet, basta se logar remotamente via ssh na rede da sua universidade e executar o comando que quiser.

Saiba mais sobre o comando nohup aqui

Site do Software estatístico R

Site do UBUNTU



Matéria "Thomas Bayes: o 'cara'!"

Matéria escrita por Sérgio Danilo Pena, fala sobre a vida do reverendo Thomas Bayes e como seu pensamento revolucionou diversos campos do conhecimento.

Um trecho da matéria:
"O pároco de um vilarejo da Inglaterra do século 18, até certo ponto obscuro em seu tempo, é festejado e considerado avançado nos meios científicos atuais – tudo por ter escrito um pequeno ensaio sobre probabilidade. O processo de raciocínio idealizado por Thomas Bayes nesse texto, que ele mesmo sequer levou a público, é tido hoje como uma nova forma de ver o mundo, como a base de uma verdadeira revolução em diferentes campos do conhecimento, da genética à teologia. Mas o que é o raciocínio bayesiano e por que vem ganhando tanto prestígio?"

A matéria pode ser visualizada aqui e a versão na integra em PDF aqui

Monte Carlo via Cadeias de Markov

Hoje é muito difícil usar Estatística Bayesiana sem usar métodos de Monte Carlo via Cadeias de Markov (Markov Chain Monte Carlo, MCMC). Isto ocorre devido a complexidade dos modelos que os dados reais exigem. Quando começamos a estudar Estatística Bayesiana, os parâmetros de interesse são costumeiramente, a média e/ou variância de uma população normalmente distribuída, o parâmetro de proporção de uma distribuição Binomial, ou até mesmo a taxa lambda de uma distribuição Poisson. Nestas situações, caso as distribuições a priori sejam escolhidas adequadamente, temos distribuições a posteriori conhecidas e as inferências são realizadas facilmente. Para estes modelos citados anteriormente, tem-se as chamadas famílias conjugadas de distribuições. Por exemplo, se escolhemos uma distribuição a priori gama para a taxa lambda de uma distribuição Poisson, a distribuição a posteriori também terá distribuição gama. Isto também ocorre com a distribuição Normal quando escolhemos uma distribuição Normal para média, o que retorna uma distribuição posteriori a Normal para a média.

Toda distribuição pertencente a família exponencial tem uma família conjugada de distribuições a priori. Entretanto, caso tivéssemos indícios de que o modelo mais adequado aos nossos dados é o modelo t-Student, distribuição não pertencente à família exponencial e que não conheço um família conjugada para a média desta distribuição. Uma alternativa é o uso de métodos de MCMC.

Monte Carlo via Cadeias de Markov são métodos de simulação baseados em Cadeias de Markov ergódicas onde a distribuição estacionária do processo estocástico é a distribuição a posteriori de interesse. Existem diversos tipos de métodos MCMC, dentre estes, o Algoritmo de Metropolis-Hastings e Algoritmo (Amostrador) de Gibbs são os mais utilizados. O Algoritmo de Metropolis-Hastings é muito utilizado por ser pouco restritivo com relação a distribuição a posteriori. Pois para o uso deste algoritmo, é suficiente e necessário ter apenas a distribuição a posteriori a menos de uma constante de proporcionalidade e escolher uma distribuição proposta adequada, o que nos trará uma taxa de rejeição, pois alguns valores das distribuição proposta serão rejeitados. O algoritmo de Gibbs é mais restritivo, pois para seu uso, é necessário conhecer as distribuições condicionais completas. Entretanto, não temos que escolher uma distribuição proposta e com isso não existe taxa de rejeição. Em cada um dos casos torna-se imprescindível verificar se a distribuição a posteriori é realmente uma distribuição de probabilidade (distribuição própria). É sugerido o uso de distribuições a priori próprias nestes caso.

Dado que temos um modelo estatístico, por exemplo um modelo linear generalizado (MLG) onde nossos parâmetros de interesse são os coeficientes regressores. Infelizmente neste caso não temos uma família conjugada e uma alternativa é utilizar MCMC. Uma pergunta comum é: Gibbs ou Metropolis-Hastings? Costuma-se tentar usar Gibbs na primeira tentativa, por ter uma implementação mais fácil. Entretanto, é difícil encontrar as distribuições condicionais completas em MLG. Então uma opção é utilizar Metropolis-Hastings. Outra opção, caso você goste de usar o algoritmo de Gibbs é tentar aumentar os dados, e com isso obter as distribuições condicionais completas.

Assumindo que o método MCMC foi escolhido e que já temos uma cadeia, o próximo passo é encontrar o ponto cujo a cadeia atingiu a distribuição estacionária. Encontrado este ponto, todos os valores obtidos a partir deste ponto serão assumidos uma amostra da distribuição a posteriori. Entretanto, neste momento entra um estudo muito importante que é a análise de convergência da Cadeia. Muitas vezes não é fácil encontrar este ponto. Existem vários meios de testar se a cadeia atingiu um comportamento estacionário; métodos baseados em representações gráficas, monitoração das médias ergódicas, método de Gelman e Rubin, método dos quantis de Raftey e Lewis, método de Geweke, além do uso de cadeias paralelas.

Assumindo agora que a cadeia atingiu o comportamento estacionário após um período de aquecimento, devemos notar que a Cadeia de Markov nos retorna valores correlacionados da distribuição a posteriori, principalmente quando utilizamos o Amostrador de Gibbs. Neste caso, devemos saltar observações para tentar reduzir a correlação da cadeia, caso contrário a variância da distribuição a posteriori será superestimada. O tamanho do salto é escolhido de acordo com correlação existente na cadeia. Uma forma de ver esta correlação é visualizar os gráficos de autocorrelações seriais das cadeiais, tanto os individuais como os cruzados, caso forem gerados cadeias simultâneas para várias quantidades de interesse. Após estes passos, temos uma amostra não correlacionada da distribuições a posteriori dos nossos parâmetros de interesse e as inferências podem ser realizadas.

Um breve resumo: Estamos interessados em uma certa quantidade (parâmetro) de uma população de interesse. Assume-se um modelo probabilístico adequado para os dados e deseja-se fazer inferência Bayesiana.

Primeira pergunta: Posso e é interessante utilizar uma família conjugada?

SIM -> Ótimo, só olhar num livro quais os parâmetros da distribuição a posteriori. Os quais dependem dos parâmetros da priori (hiperparâmetros) e dos dados.
NÃO -> Tentarei usar um método baseado em MCMC.

Segunda pergunta: Qual método MCMC devo utilizar?

Esta é uma pergunta difícil de ser respondida, cada um tem seu gosto por um método. Para o amostrador de Gibbs deve-se ter as distribuições condicionais completas, o que torna o algoritmo bastante fácil de se implementar. Entretanto, no algoritmo de Metropolis-Hastings estas distribuições não são necessárias, mas tem-se que escolher uma distribuição proposta adequada.

Terceira Pergunta: Qual deve ser meu período de aquecimento?

O interessante é utilizar vários métodos, desde gráficos à testes mais sofisticados.

Quarta Pergunta: De quanto em quanto devo saltar para assumir que minha amostra da distribuição a posteriori é não correlacionada?

Para isso é necessário ver os correlogramas, a partir deles, pode-se ter um idéia do salto.

Após todos estes passos, o que nos resta é escolher as melhores medidas para descrever nosso conhecimento sobre o parâmetro de interesse. Alguns casos, onde queremos uma estimativa pontual, pode-se usar a média a posteriori, outro casos, quando a distribuição é bastante assimétrica, a mediana pode ser a medida mais interessante.

Neste texto quis mostrar superficialmente o uso dos métodos de Monte Carlo via Cadeias de Markov em Estatística Bayesiana. Tentar mostrar de forma fácil a metodologia. Em um novo post irei escrever um pouco mais sobre análise de convergência e comparação de algoritmos, pois são assuntos que tenho interesse. Espero melhorar este texto com o tempo, e caso você tenha alguma sugestão ou crítica, será muito bem vinda.

Em breve colocarei hiperlinks nos assuntos.

Sunday, October 19, 2008

Committee on Publication Ethics

"The COPE flowcharts have been written and designed as
a practical step-by-step guide for journal editors to
deal with the most common breaches of publication
ethics that crop up repeatedly in scientific and
biomedical journals before and after publication.

The 14 flowcharts have been informed by the hundreds
of cases from around the world on which COPE has
advised since its foundation in 1997. These breaches
range from duplicate (redundant) publication through
to copying other researchers? work (plagiarism) to out
and out fraud."

For more information see here and the flowcharts here

Verificando se o tamanho amostral é suficiente para aproximações assintóticas

Geralmente o pesquisador tem uma hipótese de interesse e o estatístico precisa bolar uma estatística para testar esta hipótese. (Neste post será considerado apenas modelos frequentistas.). Em um modelo muito complexo, não é possível encontrar a distribuição exata desta estatística proposta e portanto métodos assintóticos são utilizados. Este método consiste basicamente em encontrar a distribuição desta estatística proposta quando o tamanho da amostra tende ao infinito. Assim teremos uma distribuição assintótica que pode ser utilizada como aproximação em situações reais, ou seja, quando o tamanho amostral é finito. Mas qual o tamanho amostral razoável para que a aproximação seja coerente, n=10, 50, 1000?

Veja aqui mais detalhes

Inscrições abertas: Mestrado e Doutorado na UFRJ

Pessoal

O professor Helio S. Migon postou na lista ABE (associação Brasileira de Estatística) informações sobre as inscrições para o programa de pós-graduação em Estatística na Universidade Federal do Rio de Janeiro (UFRJ). Veja a mensagem postada a seguir:


 EDITAL DE INSCRIÇÃO À PÓS-GRADUAÇÃO EM ESTATISTICA/UFRJ

As inscrições para o programa de pós-graduação em
Estatística (mestrado e Doutorado) da UFRJ encontram-se
abertas até 21 de novembro, para candidatos que queiram
iniciar seus estudos em março de 2009.
Os formulários eletrônicos e instruções para seu
preenchimento encontram-se na página do programa:
www.dme.ufrj.br, onde outras informações relevantes também
são encontradas.
O programa de Estatística da UFRJ inclui diversas
linhas de pesquisa, teóricas e aplicadas. Nossos
laboratórios estão sendo expandidos e re-aparelhados e nossa
biblioteca contempla um acervo de alta qualidade.
Oferecemos, assim, condições de trabalho privilegiadas para
nossos alunos, num ambiente harmonioso e muito produtivo,
reconhecido nacional e internacionalmente.
Dispomos de um número razoável de bolsas de estudo a
serem alocadas para os melhores alunos selecionados para
ingresso ao programa.

Entrevista com o Professor George Box

Uma entrevista interessante com o renomado Professor George Box (conhecido no meio estatístico por Box-Jenkins models, Box-Cox Transformations e Box-Behnken Designs).

Veja abaixo uma pergunta do entrevistador Mehta ao professor Box.

Mehta: There is so much experience and advice you could share with the young statisticians of today. Is there any specific advice you would like to impart to them?

Box: I don’t think you can be a decent statistician without knowing some science and without doing some science. I would say that if students are studying statistics, they should try to find some problems in science that they could be involved with at the same time they are studying statistics.

Veja a entrevista toda aqui.

Saturday, October 18, 2008

Paradoxo de Simpson

O paradoxo de Simpson é um paradoxo estatístico que ocorre quando o efeito total é positivo mas, quando dividimos em grupos, o efeito fica negativo (ou vice-versa).

Um exemplo interessante é dado a seguir:

Suponha que um médico queira analisar o efeito entre dois tratamento A e B para combater o calculo renal. Como resultados ele obteve: 78% (273/350) de curados usando o tratamento A e 83% (289/350) de curados usando o tratamento B.

Esses resultados indicam que o tratamento B é "melhor" que o tratamento A. Contudo, o pesquisador percebeu que deveria levar em conta o tamanho da pedra e, assim, separou os indivíduos com pedra pequena e pedras grandes. Os resultados seguem:

Tratamento A

Pedras pequenas 93% (81/87) de curados.
Pedras Grandes 73% (192/263) de curados


Tratamento B

Pedras pequenas 87% (234/270) de curados.
Pedras Grandes 69% (55/80) de curados.

Analisando os resultados. Se olharmos para os resultados dos pacientes com pedra pequena verificamos que o tratamento A é "melhor" que o tratamento B. Se olharmos para os resultados dos pacientes com pedra grande verificamos também que o tratamento A é melhor que o tratamento B. Ou seja, para qualquer tamanho de pedra o tratamento A é "melhor" que o tratamento B e chegamos a uma contradição com a afirmação inicial.

Neste exemplo em especial, o paradoxo ocorre por falha do pesquisador. Ele deveria ter fixado a priori os grupos e ter retirado uma amostra balanceada (na verdade pode ser desbalanceada mas tem um limite para que o paradoxo não ocorra). O pesquisador sabia que o tratamento A era mais eficaz e alocou os pacientes com pedras grandes (que são os casos mais severos) para este tratamento. Esse foi o erro do pesquisador.

Imagine agora que o experimento foi feito utilizando uma amostra balanceada e fazendo tudo como manda o figurino, os resultados obtidos ainda podem ser totalmente inválidos. Pode haver uma variável que não foi considerada no modelo que dentro daquele nível as conclusões se invertam (supondo que o novo experimento seja balanceando para o último nível), claro que o paradoxo de Simpson não irá ocorrer em cada experimento mas as conclusões de cada experimento poderão ser diferentes. Mais ainda... Suponha os seguintes experimentos:

Quero verificar quais dos dois tratamento é mais eficiente A ou B. Então eu pego uma amostra aleatória balanceada para cada tratamento e verifico as proporções de cura, suponha que, sob esse experimento, o tratamento A mostrou-se mais eficaz que o tratamento B. Depois eu percebo que deveria ter levado em conta um determinado evento C1. Então eu aplico cada tratamento dentro de cada nível C1 e C1* (* = complementar) usando uma amostra balanceada neste nível. Suponha que os resultados inverteram e agora o tratamento B mostrou-se melhor. Um outro pesquisador disse que o evento C2 deveria ter sido considerado, então reamostramos os pacientes tornando balanceada a amostra dentro do último nível, ou seja, os grupos (C1 inter C2), (C1 inter C2*), (C1* inter C2), (C1* inter C2*) devem ter o mesmo tamanho amostral. Neste experimento os resultados voltaram a mostrar que o Tratamento A é "melhor". Podemos ficar mudando de conclusão indefinidamente inserindo outros eventos C3, C4, ....

Note que o paradoxo de Simpson não irá ocorrer em cada experimento mas de experimento para experimento as conclusões são "paradoxais" (diferentes).

Outro exemplo

Suponha que duas pessoas, Lisa e Bart, cada um edita artigos da Wikipédia por duas semanas. Na primeira semana Lisa melhora 60% dos artigos que ela edita, enquanto que Bart melhora 90%. Na segunda semana, Lisa melhora apenas 10% dos artigos que ela edita enquanto que Bart 30%.

Nas duas semanas, Bart melhorou muito mais artigos do que Lisa. Contudo, vejamos os resultados:

Lisa
1ª semana 60%(60/100) dos 100 artigos editados, Lisa melhorou 60.
2ª semana 10% (1/10) dos 10 artigos editados, Lisa melhorou apenas 1.

Total combinado 55.5%(61/110). Ou seja, de 110 artigos que Lisa editou ela melhorou 61.

Bart
1ª semana 90% (9/10). Dos 10 artigos editados, Bart melhorou 9.
2ª semana 30% (30/100). Dos 100 artigos editados, Bart melhorou 30

Total combinado 35.5% (39/110). Ou seja, de 110 artigos que Bart editou, ele melhorou 39.

Resumindo, no total Lisa melhorou muito mais artigos que Bart, mas Bart melhorou muito mais artigos por semana. Qual dos dois melhorou mais artigos? Pode-se usar argumentos a favor de Bart e de Lisa. Talvez a resposta mais correta é que eles são incomparáveis, pois os artigos não são os mesmos e muitas outras variáveis de confundimentos estão presentes.

Para mais informaçães, sobre esses exemplos e outros visite o site da Wiki

Piada - O Biólogo, o Estatístico, o Matemático e o Cientista computacional

Um biólogo, um estatístico, um matemático e um cientista computacional estão num safari na África. Eles circulam de jeep no interior de uma Savana, param, e observam o horizonte com os seus binóculos.

De repente o biólogo diz: "Olhem! Ali está uma manada de zebras! No meio está uma zebra branca! É fantástico! Existem zebras brancas! Seremos famosos!"

O estatístico abaixa a cabeça e diz: "Não é significante. Nós apenas sabemos que existe uma zebra branca".

O matemático discorda e fala: "Na realidade, nós sabemos que existe uma zebra que é branca num dos lados."

E então, o cientista computacional se assusta e diz: "Oh não! Um caso especial!"

Matéria "Não somos todos burros" do Estadão

Há algumas semanas me deparei com um matéria publicada na página do jornal Estadão, a matéria tinha um título interessante, talvez um pouco sensacionalista, a matéria é "Não somos todos burros", de João Ubaldo Ribeiro.

O autor tenta mostrar que algumas estatísticas, por exemplo a média, pode informar muito pouco sobre a população de interesse caso esta seja bem diversificada. Entretanto, esse 'probleminha' pode ser resolvido se a média for usada conjuntamente com outras estatísticas, tais como a mediana, a variância, dentre muitas outras.

A matéria apresenta alguns exemplos de situações onde o uso destas estatísticas nos dar um melhor entendimento das informações que nos são apresentadas, principalmente, quando somos bombardeados por números pela mídia e pelo Governo.

Em breve tentarei descrever melhor estas estatísticas neste Blog.

Qual abordagem é melhor: clássica ou Bayesiana?

Este é um assunto que mexe com os sentimentos de muitos estatísticos. Alguns defendem fortemente a abordagem Bayesiana outros a clássica. Afinal quem está certo? Será que existe uma resposta coerente para esta pergunta?

Existem argumentos de todos os lados. Bayesianos dizem que algumas metodologias clássicas violam o principio da verossimilhança. Os clássicos alegam que as metodologias bayesianas podem ser usadas para provar qualquer coisa  (e.g., existência de entidades metafísicas). O que podemos afirmar, na verdade, é que ambas abordagens nos trazem coisas boas e ruins. O importante é que a abordagem escolhida seja utilizada de forma consciente e honesta.

Durante todo o texto, consideramos a abordagem Bayesiana subjetiva que não viola o principio da verossimilhança. Como existem muitos argumentos defendendo a metodologia Bayesiana e atacando a metodologia clássica, nestas notas apenas tentamos esclarecer algumas confusões geralmente proferidas em vários lugares, inclusive em universidades. Não faremos uma análise exaustiva sobre as qualidades da metodologia clássica (métodos não paramétricos, métodos robustos, suposições da realidade, etc).

Basicamente, a diferença entre as duas metodologias é a seguinte: A metodologia Bayesiana considera que as quantidades desconhecidas são aleatórias. Enquanto que na clássica, tais quantidades podem ser aleatórias (variáveis latentes) ou não (índices de probabilidades). Ao contrário do que se é propagado, é plenamente possível inserir informação a priori em modelos clássicos. Um exemplo simples segue.

Suponha que queremos analisar a probabilidade de ocorrência de uma enfermidade na população. Podemos pensar no seguinte experimento mental para acessar essa informação. Selecione n pessoas ``ao acaso" e seja X = sum_i X_i o número de pessoas que sofrem da enfermidade. Supondo independência entre as observações teremos que X ~ B(n,p). Porém, instantes depois de formular o experimento um conhecedor da doença nos alerta que sua ocorrência em mulheres é diferente do que em homens. Essa informação a priori pode ser utilizada assumindo um modelo de regressão: p_i = exp(a + b w_i)/(1 - exp(a+bw_i)), em que w_i = 1 se o i-ésimo individuo for mulher e zero caso contrário. Outras formas de modelagem podem ser utilizadas, como por exemplo considerar a forma hierárquica X|p ~ f_p(x) e p~ g_m sendo f_p(x) a densidade de X dado p e g_m a densidade de p que depende de um parâmetro m (na verdade é um índice de uma família de distribuições de probabilidades). Na metodologia clássica, o parâmetro m é estimado usando a densidade marginal de X. Na abordagem Bayesiana o parâmetro m não pode ser estimado, pois isso infringiria o principio da verossimilhança. Isso mostra que de certa forma, a metodologia clássica engloba a metodologia usual Bayesiana subjetivista. (Existe também a estatística Bayesiana não paramétrica, mas não trataremos nestas notas.)


Muitos alunos, pupilos de Bayesianos renomados estão deixando de estudar a metodologia clássica (convergências, distribuições limite, testes de Neyman-Pearson, correções de teste, etc) afirmando que: Se uma abordagem não respeita o principio da verossimilhança, então esta deve ser descartada. Vejamos o que o principio da verossimilhança nos diz:


Seja t nossa quantidade de interesse, considere que x e y são dados observados que nos levam a verossimilhanças proporcionais, ou seja, L(x| t) = c L(y| t) , sendo c uma constante que não depende de t. Então as inferências sobre t devem ser as mesmas se usarmos os dados x ou y.

Este é um principio que parece ser coerente, pois acreditamos que toda a informação está na verossimilhança. O que ocorre na verdade é que este principio força que as inferências dependam apenas dos dados observados. Na teoria freqüentista que usa verossimilhanças (parte da estatística clássica), fixamos o experimento e construímos a verossimilhança. Os procedimentos inferenciais são derivados ANTES de se observar os dados do experimento. Portanto, neste caso, a verossimilhança é uma variável aleatória e todas as inferências levarão em conta os valores não observados do experimento (FIXADO). Vamos ilustrar com um exemplo a violação do princípio da verossimilhança:

Considere o lançamento de uma moeda. Seja X o número de caras observadas em 12 jogadas e Y o número de lançamentos até que se observe 3 caras. Suponha que p é a probabilidade de sair cara e que o interesse é testar p = 0,5 contra p

Situação 1: O observador fixa 12 jogadas e observa o número de caras. Suponha que apareceram 3 caras.

P(X<=3 | H0 verdadeira) = 1/2^(12)*(comb(12,9)+comb(12,10)+comb(12,11)+ comb(12,12)) = 0,07299805 onde comb(a,b) significa combinação de a, b a b. Note que não rejeitamos a hipótese H0 a 5% de significância.

Situação 2: O observador lança a mesma moeda até aparecer 3 caras. Suponha que foram necessárias 12 jogadas.

P(Y>=12| H0 verdadeira)= 1-(comb(10,2)*1/2^11 + comb(9,2)*1/2^10 +comb(8,2)*1/2^9 +comb(7,2)*1/2^8 +comb(6,2)*1/2^7 +choose(5,2)*1/2^6 +comb(4,2)*1/2^5 +comb(3,2)*1/2^4 +comb(2,2)*1/2^3 ) = 0,03271484

Neste caso o valor-p = 0,033 (rejeita H0 a 5% de significância). Perceba que a situação 1 e 2 produzem evidências diferentes contra a hipótese H0. Entretanto, o núcleo das verossimilhanças são iguais. O principio da verossimilhança diz que as evidências contra a hipótese H0 devem ser as mesmas nestas duas situações.

Vejamos como as distribuições se comportam em cada caso:

No caso em que fixamos as jogadas temos uma distribuição binomial. Para este caso temos:

Se p for 1/4 (valor estimado 3/12 = 1/4) então a variância da variável X no caso binomial é 12*1/4*3/4 = 2,25. Contudo, sob a hipótese H0: p=1/2, a variância fica 12*1/4 = 3. Note que não muda muito.

No caso em que fixamos o número de caras e observamos o número de lançamentos, temos uma distribuição binomial negativa. Para este caso temos o seguinte:

Se p for 1/4 então a variância da variável Y no caso binomial negativo é 3*(3/4)/(1/4)^2 = 36. Entretanto, sob a hipótese H0 (p=1/2) a variância fica 3*(1/2)/(1/2)^2 = 6. Ou seja, houve uma grande mudança de variabilidade para valores diferentes de p. Isso provoca maior sensibilidade no teste aumentando o seu poder e a estatística clássica considera isso nas análises enquanto que a bayesiana não.

Basicamente o que ocorre é que a variância dos dados observados segundo o experimento binomial tem comportamento parecido, tanto para p=1/4 quanto para p=1/2. Enquanto que para os dados observados segundo um experimento binomial negativo este comportamento difere bastante. Sabemos disso porque estamos utilizando a informação não observada do experimento (na hora de calcular a variância estamos utilizando a distribuição inteira, com dados amostrado e não amostrados).

Contudo, não é suficiente estudar apenas o comportamento da variância para explicar tal fato. Como o Mr. Stern mostrou, podem existir casos em que dois experimentos equivalentes produzam o mesmo efeito das variâncias que mostramos. É claro que em experimentos equivalentes estes desvios devem ocorrer em todos os momentos e isso não vai causar mudança de evidências. As características intrínsecas de cada distribuição são levadas em conta na inferência clássica. Seria necessário estudar os infinitos momentos conjuntamente de cada distribuição para fazer uma análise minuciosa do porquê os experimentos que produzem verossimilhanças proporcionais podem produzir evidências diferentes contra a hipótese nula, quando utilizamos a estatística clássica.

Assim, pequenos desvios no comportamento da distribuição dos dados para diferentes valores do parâmetro de interesse podem trazer informações sobre o valor do parâmetro. Entretanto, metodologias que cumprem o principio da verossimilhança não detectam essas mudanças, pois a verossimilhança é considerada fixa e não aleatória. Isso força um certo descarte informação.

Por que não considerar tais informações nas inferências?


**Agradeço aos comentários do Mr. Stern que ajudaram a entender melhor esse processo.

Inscrições abertas: Doutorado no IME - USP

Pessoal,

O Prof. Fábio Prates informa na lista da ABE que estão abertas as inscrições para o doutorado em estatística e Probabilidade do Instituto de Matemática e Estatística da USP.

A período de inscrição vai até o dia 15 de novembro de 2008.


O Instituto aceitará apenas 12 alunos de doutorado. Serão oferecidas 8 a 10 bolsas de estudos (Capes e CNPq).

Para mais informações veja aqui.

Análise Objetiva ou Subjetiva?

Para decidir entre análises que primam pela objetividade ou pela subjetividade temos que decidir onde iremos aplica-las. Primeiro vamos definir os termos para a discussão:

Uma análise objetiva é aquela que pode ser replicada em qualquer lugar do mundo, utilizando um algoritmo que defina o experimento de forma precisa. Uma análise subjetiva não pode ser replicada pois ela faz sentido apenas para um indivíduo (ou um grupo pequeno de indivíduos). Esta última envolve conhecimentos pessoais, superstições e coisas do tipo. Contudo, o conhecimento pessoal, subjetivo pode se tornar objetivo desde que este seja comprovado cientificamente. Assim definimos:

CSC:
conhecimento subjetivo comprovado;

CSP: conhecimento subjetivo particular;

Se o CSC for utilizado em uma análise, esta será objetiva. O mesmo não ocorre com o CSP. Isso não implica que o CSP deve ser descartado, ele deve ser considerado uma hipótese a ser testada e, quem sabe um dia, ele vire um CSC. O CSP ainda pode ser utilizado em teorias dos jogos e em outras situações em que a objetividade não seja essencial. Contudo na ciência, o conhecimento objetivo deve ser mantido como prioridade. O avanço da ciência depende da objetividade dos experimentos e análises para que a hipótese possa ser validada por outros pesquisadores.

O que devemos deixar claro é que qualquer modelo carrega subjetividade em algum nível. Se o modelo considerar apenas o CSC, então ele é dito ser objetivo, se o modelo considera CSP, então ele é dito ser subjetivo.

Em estatística há duas vertentes bem divididas quase como água e óleo. A primeira e mais antiga é a estatística bayesiana, que sofreu um período de descaso por não haver métodos computacionais que tratassem os problemas intrínsecos desta abordagem. Seu retorno se deve basicamente ao advento dos computadores e métodos computacionais. A outra vertente é conhecida como estatística clássica. Há uma diferença básica entre estas duas principais abordagens, a saber:

  1. Na estatística Bayesiana subjetivista considera-se que as quantidades desconhecidas são variáveis aleatórias. Os parâmetros de interesse seguem uma distribuição a priori que não depende de quantidades desconhecidas. A medida de probabilidade conjunta que governa as variáveis observáveis e não observáveis é conhecida.
  2. Na estatística clássica a quantidade de interesse pode ser aleatória ou fixa (índices de probabilidades), a medida que governa os dados observáveis e não observáveis não é conhecida. Tal medida de probabilidade pertence a uma família de probabilidades que será estimada utilizando os dados observados.
É importante notar que esta definição de estatística clássica engloba Bayesianos objetivos.

Assim concluímos este post alertando que análises subjetivas tem seu campo de aplicação. Contudo, este não é o caso da ciência, a não ser que o conhecimento subjetivo inserido na distribuição a priori (no caso da abordagem bayesiana) seja comprovado cientificamente.

Por que aleatorizar?

Alguns ainda afirmam que aleatorizar não é necessário. Veja o argumento:

Suponha que eu queira escolher 4 alunos de uma classe de 20 alunos (homens) para medir suas alturas. Eu resolvo escolher João, Márcio, Cléber e Léo. Então anoto suas respectivas alturas, tiro a média e faço minhas inferências para a turma toda. Não contente com meus métodos o professor Jatobá (nome fictício apenas para ilustrar o exemplo) disse que eu deveria aleatorizar a amostra. Então ele faz um algoritmo em algum programa estatístico para retirar "aleatoriamente" (na verdade é pseudo-aleatório, mas esqueçam isso por alguns segundos) os 4 alunos. Por acaso saíram os mesmos alunos que eu selecionei: João, Márcio, Cléber e Léo. E ai? porque eu estou errado e ele certo se os resultados são os mesmos?

Bom, se a população que estamos estudado for extremamente homogênea, então tanto faz selecionar aleatoriamente ou intencionalmente. O grande problema é que isso não ocorre na prática. Sempre teremos algum subgrupo escondido na população que é bem homogêneo dentro dele e que difere dos outros grupos que formam a população. Mesmo estratificando sua população ao nível máximo conhecido nunca teremos certeza de que ainda existe algum outro subgrupo que seria necessário estratificar.

Porque aleatorizar?

Porque não temos controle de tudo e assim evitamos escolher apenas indivíduos dentro de um subgrupo que não temos consciência de que ele difere dos demais. Ou seja, aleatorizamos para evitar um viés na amostra. Além disso, esse esquema permite que a análise seja replicável por outras entidades. Esta última característica é extremamente desejável em ciência, onde os experimentos devem ser replicáveis para que outros pesquisadores verifiquem sua validade.

Um dos problemas debatidos entre os estatísticos é o método de amostragem utilizado nas eleições. Sabe-se que as instituições não retiram uma amostra probabilística, entretanto utilizam os métodos estatísticos que supõem amostras probabilísticas. A amostra geralmente é retirada por cotas e não tem validade científica, pois não é possível calcular o erro-padrão nem mesmo saber se as estimativas são não-viciadas. Uma discussão interessante sobre o tema que fala sobre a falsidade das margens de erro de pesquisas eleitorais feita pelos Professores José Ferreira de Carvalho (Professor aposentado da UNICAMP) e Cristiano Ferraz (Professor da UFPE) pode ser vista aqui.

Inscrições abertas: Mestrado e Doutorado ICMC/USP/São Carlos

As inscrições para o programa de pós graduação em Ciências de Computação e Matemática computacional do ICMC/USP/São Carlos foram prorrogadas até 31/10/2008.


Veja abaixo a mensagem postada na lista ABE (associação Brasileira de Estatística) pelo Professor Marinho Gomes de Andrade Filho:


PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DE COMPUTAÇÃO E MATEMÁTICA
COMPUTACIONAL
PPG-CCMC
INSTITUTO DE CIÊNCIAS MATEMÁTICAS E DE COMPUTAÇÃO - ICMC
UNIVERSIDADE DE SÃO PAULO

O programa de Ciências de Computação e Matemática Computacional
(PPg-CCMC) do ICMC-USP/São Carlos está com as inscrições abertas
até: 31 de outubro de 2008, para os Programas de Mestrado e
Doutorado em Ciência de Computação e Matemática Computacional.

O PPg-CCMC é classificado como nível 5 pela CAPES e conta com
bolsas CNPq,CAPES e FAPESP, além de bolsas de projetos específicos
dos orientadores.

As Linhas de Pesquisa são:

- Computação:
Engenharia de Software e Sistemas de Informação
Inteligência Computacional
Banco de Dados
Sistemas Distribuídos e Programação Concorrente
Computação Gráfica e Processamento de Imagens
Sistemas Web e Multimidia Interativos
Sistemas Embarcados, Evolutivos e Robóticos


- Matemática Computacional:
Mecânica dos Fluidos Computacional
Otimização
Estatística

O que um estatístico faz afinal?

Há vários tipos de estatísticos, provavelmente um espectro quase contínuo. Enumera-los seria impossível, portanto é necessário dividi-los em categorias. Podemos definir duas categorias: Estatístico teórico e Estatístico prático. Um estatístico pode pertencer aos dois grupos sem conflitos de identidade. A característica básica que une estes grupos é a tentativa de prever quantidades desconhecidas ou explicar relações entre variáveis. Um estatístico trabalha quase como uma cartomante, porém em vez de cartas para prever o futuro, o estatístico usa ferramentas matemáticas e fornece a precisão da previsão.

O estatístico teórico desenvolve a teoria usando teoremas, proposições, lemas, etc. Estes profissionais geralmente são doutores e trabalham em sua maioria em universidades públicas. Dentro dessa classe podemos dividir em outras categorias como, por exemplo: estatístico-matemático e estatístico-aplicado. O estatístico-matemático desenvolve somente a teoria sem que estas tenham uma aplicação tão evidente, ou seja, a preocupação inicial não se concentra em resolver um problema prático. Por exemplo, (1) encontrar a distribuição limite de estatísticas para construir testes de hipóteses aproximados; (2) corrigir uma estatística a fim de acelerar a convergência para a distribuição limite; (3) comparar a performance entre estimadores ou estatísticas. Enfim, há uma série de exemplos em que um estatístico-matemático tem interesse de estudar e que não envolve diretamente uma aplicação. Por outro lado, o estatístico-aplicado desenvolve as teorias com o objetivo de resolver um problema prático. Este estatístico também desenvolve suas teorias utilizando ferramentas matemáticas exatamente como o estatístico-matemático, entretanto o objetivo principal está focado na aplicação. A forma de divulgação destes trabalho é através de artigos científicos que podem ser encontrados em diversas revistas especializadas. As mais importantes são: Annals of Statistics, Biometrika, Journal of the American Statistical Association, Journal of the Royal Statistical Society. De forma geral, o trabalho destes profissionais consiste em: (1) propor novos modelos estatísticos; (2) relaxar algumas suposições de modelos já existentes para se adequar melhor a situações reais; (3) comparar modelos seguindo algum critério; (4) melhorar metodologias de acordo com algum critério; (5) estudar o impacto em utilizar um modelo não adequado; etc. Grande parte deste trabalho é verificado utilizando recursos computacionais.

O estatístico prático apenas aplica a teoria já desenvolvida em problemas do dia a dia. Geralmente, os estatísticos práticos trabalham em empresas, indústrias, bancos, corretoras, entre outras, e podem ser graduados, mestres e doutores (graduados e mestres são mais freqüentes neste grupo). É claro que um estatístico prático provavelmente já tenha encarado um problema teórico no seu dia a dia, contudo resolver problemas dessa espécie não é sua atividade principal.

Thursday, October 16, 2008

Saudações

Olá pessoal,

Este é o primeiro post deste blog, eu espero atualiza-lo sempre que possível. O assunto principal deste Blog é Estatística. Este é um assunto que envolve toda a comunidade científica, assim esperamos que biólogos, geólogos, médicos, engenheiros, matemáticos, físicos, estatísticos dentre outros, possam contribuir com suas experiências em suas respectivas áreas.

Várias técnicas inovadoras são propostas a cada minuto e o pesquisador da área deve estar atento às novidades para não cometer deslizes que eventualmente comprometam as conclusões de seus trabalhos. Neste espaço discutiremos problemas metodológicos, filosofia, aplicações e assuntos relacionados. Aqui eu espero compilar muitos assuntos que foram debatidos em comunidades estatísticas.

Em breve estaremos atualizando o blog, aguardem...

Contamos com a sua participação.

Abraços,

Alexandre Patriota.