====== Introdução ====== A inferência estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra. O verbo inferir tem o significado de deduzir através do raciocínio, na estatística o processo de dedução ocorre através da análise de dados presentes em uma amostra. Ao sortear uma amostra de uma população, a sua composição é por si só um fenômeno aleatório, ou seja, diferentes sorteios geram diferentes amostras. Por outro lado, diferentes amostras levam a diferentes resultados para as estatísticas de interesse tais como: média, proporção,variância,...Ao pensarmos no tradicional exemplo da amostragem de eleitores para estimação da proporção de votos de um candidato, diferentes institutos de pesquisa coletam diferentes amostras e, por conseqüência, geram diferentes estimativas. Então, cientes de que diferentes amostragens produzem diferentes valores, torna-se relevante questionar como funciona o mecanismo de variabilidade das repostas obtidas em diferentes amostras. Formalizando, de acordo como o conteúdo visto nos capítulos anteriores, o interesse em coletar uma amostra aleatória corresponde a fazer observações de uma seqüência de //n// váriaveis aleatórias que aqui será denotada por: X_1,X_2,\ldots,X_n Para entender como as respostas em uma amostra aleatória podem variar, observe o exemplo 7.1 em Magalhães e Lima (2004). //**Exemplo 7.1**: Uma empresa fabrica 100 equipamentos eletrônicos por semana e deseja verificar como se comporta a resistência deste tipo de equipamento em relação à alteração de voltagem. Um teste planejado pelo controle de qualidade da empresa, consiste em produzir sucessivas alterações padronizadas de voltagem e observar o efeito no aparelho. Como esses testes são demorados e demandam custos expressivos, apenas 5 desses aparelhos serão testados a cada semana.// Neste exemplo, ao observar um aparelho, a resistência à alteração na voltagem pode ser considerada boa ou má. Isto corresponde a observar uma variável de Bernoulli, ou seja, X:\textit{indicador da resistência à alteração na voltagem (0-má 1-boa)} O procedimento do controle de qualidade consiste em observar 5 variáveis aleatórias de Bernoulli, o que pode ser representado pelo vetor: (X_1,X_2,X_3,X_4,X_5) Em cada semana a amostra de tamanho //n// =5 é coletada, ou seja, observa-se o vetor aleatório acima. Suponha que durante um mês este tenha sido o resultado das observações: \begin{tabular}{|c|ccccc|} \hline & X_1 & X_2 & X_3 & X_4 & X_5 \\ \hline semana 1 & 0 & 1 & 1 & 1 & 1 \\ semana 2 & 1 & 0 & 1 & 1 & 0\\ semana 3 & 1 & 1 & 1 & 0 & 1\\ semana 4 & 0 & 1 & 0 & 1 & 1 \\ \hline \end{tabular} Caso nestas semanas o processo de fabricação esteja sob controle, e as peças tenham sido sorteadas de modo a representar bem os 100 equipamentos fabricados na semana, os valores acima representam 4 diferentes configurações para uma amostra aleatória. Veja abaixo como a proporção de peças boas é estimada em cada semana. \begin{tabular}{|c|c|} \hline & proporção de peças boas \\ \hline semana 1 & 4/5 \\ semana 2 & 3/5 \\ semana 3 & 4/5 \\ semana 4 & 3/5 \\ \hline \end{tabular} É importante ressaltar na tabela acima que diferentes amostragens geram diferentes resultados para a estatística de interesse que, neste caso, é a proporção de peças boas. ====== Parâmetros, Estimadores e Estimativas ====== //**Definição**// Parâmetro é uma quantidade de interesse que, em geral, é desconhecida na população. Estas quantidades serão representadas, geralmente, por letras gregas e podem especificar uma distribuição de probabilidades. As técnicas de inferência estatística encarregam-se de deduzir o valor de um parâmetro por meio da avaliação de uma amostra. Alguns parâmetros de interesse \mu: \textit{média populacional} \sigma^2: \textit{variância populacional} p: \textit{proporção populacional} Quando falarmos de forma geral sobre o parâmetro de interesse, vamos aqui utilizar a letra grega \theta. //**Definição**// Estimador é uma função dos valores de uma amostra construída para estimar um parâmetro de interesse. A notação apresentada a seguir traz uma forma padrão de representar um estimador, colocando um acento circunflexo no parâmetro a ser estimado. \hat{\theta}=f(X_1,X_2,\ldots,X_n) Repare que o estimador é uma função de variáveis aleatórias e, portanto, também é uma variável aleatória. Um exemplo clássico de estimador é a média amostral. Por meio desta função que soma //n// elementos de uma amostra e posteriormente divide o resultado por //n//, temos um estimador intuitivamente natural para a média populacional. Ao avaliar esta função em um conjunto de dados observados, o resultado é denominado estimativa. Com a aplicação de um estimador, podemos encontrar diferentes estimativas em diferentes amostras. Veja o exemplo abaixo: //**Exemplo 7.2** Para estudar o nível de colesterol em uma população de esportistas, coletamos uma amostra de 10 jovens atletas, obtendo os seguintes valores: 180 ; 196 ; 185 ; 165 ; 190 ; 180 ; 176 ; 165 ; 195.// O interesse nesta população é conhecer: \mu: \textit{nível médio de colesterol} Consideremos 3 estimadores para esta quantidade: \hat \mu_1 = \dfrac{X_{(1)}+X_{(10)}}{2} notando que X(i) é o i-ésimo valor da amostra ordenada, o primeiro estimador emprega a média aritmética entre o mínimo e máximo da amostra como função para inferência. \hat \mu_2 =X_1 O segundo estimador simplesmente utiliza o primeiro valor presente na amostra (não ordenada) como estimador para a média populacional. \hat \mu_3 =\dfrac{X_1+\ldots+X_{10}}{10} O último dos estimadores propostos utiliza a média aritmética dos valores da amostra como estimador para a média populacional. A aplicação dos três estimadores acima à amostra, vai gerar as estimativas : \hat\mu_{1obs}=\dfrac{165+196}{2} =180,5 \hat\mu_{2obs}=180 \hat\mu_{3obs}=182,7 //**Exemplo 7.3** Em uma cidade, os taxis estão numerados de 1 até // \theta //, sendo que // \theta //é um parâmetro desconhecido que representa a quantidade de taxis na cidade. Supondo que os taxis circulam de modo uniforme por toda cidade, uma pessoa anotou a placa dos 5 primeiros taxis que passaram em uma determinada esquina. Estes números foram:// \begin{tabular}{ccccc} 172 & 79 & 215 & 328 & 440 \\ \end{tabular} Esta amostra representa 5 observações da variável aleatória //X//, número do táxi que passa por aquela esquina. Para estimar o parâmetro, são propostos 3 estimadores: \hat{\theta}_1=max(X_1,X_2,X_3,X_4,X_5)=X_{(5)} \hat{\theta}_2=2 X_{(\frac{5+1}{2})} \hat{\theta}_3=X_{(5)}+X_{(1)} Os três estimadores acima representam três propostas para estimar a quantidade total de taxis na cidade. As funções da amostra apresentadas acima são respectivamente: máximo, 2 vezes a mediana e máximo+mínimo. Ao aplicarmos estes estimadores na amostra obtida teremos as seguintes estimativas: \hat{\theta}_{1obs} = 440 \hat{\theta}_{2obs} = 430 \hat{\theta}_{3obs} = 519 Cada um dos exemplos acima propõe 3 estimadores, estes são utilizados em uma amostra observada da variável de interesse e são encontradas diferentes estimativas. A questão relevante neste momento é //"Qual estimador é o mais apropriado ? "//. A princípio esta questão parece não ter resposta, pois não conhecemos o valor do parâmetro de interesse. Porém, o estimador é uma variável aleatória, logo podemos pensar na sua distribuição de probabilidades e avaliar estatísticas como: valor esperado e variância. A partir deste fato são desenvolvidos princípios para qualificar e diferenciar os estimadores. Um estimador mais "preciso", por exemplo, é aquele que possui menor variabilidade de amostra para amostra. Deseja-se também que valor esperado do estimador seja o valor do parâmetro de interesse na população. Na seqüência são apresentadas algumas propriedades desejáveis para um bom estimador. ==== Propriedades dos Estimadores ==== A escolha entre vários estimadores estará norteada pelas propriedades apresentadas a seguir: === Vício (Tendenciosidade) === Um estimador é dito ser não viciado (não tendencioso) se o seu valor esperado é igual ao parâmetro de interesse. Matematicamente escrevemos esta propriedade como: E(\hat\theta)=\theta Caso o estimador seja viciado, a quantificação deste vício será representada por: B(\hat\theta)=E(\hat \theta)-\theta //**Exemplo 7.4:** Uma variável aleatória X possui média // \mu // e variância // \sigma^2. // Para uma amostra aleatória de tamanho n: // X_1,X_2,\ldots,X_n mostre que os estimadores : \hat\mu_1=X_1 e \hat\mu_2=\dfrac{X_1+X_2+\ldots+X_n}{n} são não viciados para o parâmetro \mu Estas demonstrações podem ser feitas utilizando somente as propriedades do operador esperança E(.). Para o primeiro estimador, é trivial demonstrar a não-tendenciosidade. E(\hat\mu_1)=E(X_1)=\mu Para o segundo estimador, média amostral, basta lembrar que o valor esperado de uma soma de variáveis independentes é a soma dos valores esperados, logo, E(\hat\mu_2)=E\left(\dfrac{X_1+X_2+\ldots+X_n}{n}\right)= E\left(\dfrac{X_1}{n}\right)+E\left(\dfrac{X_2}{n}\right)+\ldots+E\left(\dfrac{X_n}{n}\right)=\dfrac{1}{n}n\mu=\mu O resultado acima é bem geral pois afirma que a média amostral é sempre um estimador não viciado da média populacional. Entretanto, se considerarmos para o mesmo exemplo o estimador : \hat \sigma^2=\sum_{i=1}^n \dfrac{(X_i-\bar X)^2}{n} para o parâmetro \sigma^2, constatamos que este é viciado !!! E(\hat \sigma^2)=\dfrac{n-1}{n}\sigma^2 O vício presente neste estimador é eliminado quando definimos um novo estimador: S^2=\dfrac{n}{n-1}\hat\sigma^2=\sum_{i=1}^n \dfrac{(X_i-\bar X)^2}{n-1} === Consistência === Um estimador é dito ser consistente se o seu valor converge para o valor do parâmetro de interesse a medida que a amostra aumenta. Além disto, a sua variabilidade, medida pela variância, converge para 0. Matematicamente, as propriedades de um estimador consistente são expressas como: - \lim_{n\rightarrow\infty}E(\hat\theta)=\theta - \lim_{n\rightarrow\infty}Var(\hat\theta)=0 Repare que a propriedade 1 é menos restritiva do que a propriedade de não-tendenciosidade. O que interessa é que o estimador seja não viciado para grandes amostras, ou seja, valores grandes de n. Eventualmente o estimador pode até ser viciado em pequenas amostras. O vício do estimador \hat \sigma^2=\sum_{i=1}^n \dfrac{(X_i-\bar X)^2}{n} é dado por : B(\hat \sigma^2)=-\dfrac{\sigma^2}{n}. Entretanto, é direta a verificação de que: \lim_{n\rightarrow\infty}B(\hat\sigma^2)=0 e logo este estimador é consistente para a variância populacional. === Eficiência === Sejam dois estimadores \hat \theta_1~,~\hat\theta_2, **não viciados** para \theta. O estimador \hat\theta_1 é dito ser mais eficiente do que \hat \theta_2 caso tenha menor variabilidade, ou seja : Var(\hat \theta_1) < Var(\hat \theta_2). Esta propriedade estabelece termos de comparação entre dois estimadores. Casos ambos sejam não viciados, a escolha deve recair sobre aquele que for mais eficiente. Como em geral a variabilidade de um estimador está em função de //n//, tamanho de amostra, um estimador mais eficiente requer uma amostra menor para gerar a mesma precisão do estimador "menos" eficiente. // **Exemplo 7.5 :** Vamos ilustrar a propriedade de eficiência considerando uma amostra de tamanho n da variável aleatória do Exemplo 7.4 e dois estimadores não viciados para a média populacional: // \hat \mu_1 = X_1 e \hat \mu_2 = \dfrac{X_1+\ldots+X_n}{n} Utilizando as propriedades do operador variância, temos que : Var(\hat \mu_1)=Var(X_1)=\sigma^2 e Var(\hat \mu_2)=Var\left( \dfrac{X_1+\ldots+X_n}{n}\right)=\dfrac{\sigma^2}{n} de acordo com a expressão das duas variâncias, o estimador \hat\mu_2 é mais eficiente nas situações em que n>1. ====== Distribuições Amostrais ====== Na inferência estatística, procura-se avaliar como as estimativas produzidas por um estimador variam de uma amostra para outra. A situação ideal é aquela em que há conhecimento da distribuição de probabilidade do estimador. Por intermédio dela, é possível avaliar o valor esperado do estimador, assim como sua variância. Nesta seção, a distribuição de probabilidade do estimador é chamada de distribuição amostral. Veja o exemplo em Magalhães e Lima (2004) que será discutido posteriormente //**Exemplo 7.12**: Um jogo consiste em lançar uma moeda honesta 3 vezes. Para cada lançamento, se cair cara você ganha 1 ponto, caso saia coroa você perde 1 ponto.// A variável aleatória em questão pode ser expressa da seguinte maneira : //X//: resultado, em pontos, após o lançamento de uma moeda. Sendo assim, X \in \lbrace-1,1 \rbrace Uma amostra de tamanho //n=3// corresponde a observação do seguinte vetor de variáveis aleatórias: (X_1,X_2,X_3 ) onde cada uma delas tem a distribuição de probabilidades : P(X_i=1)=1/2=P(X_i=-1) Nesta situação, a variável pode assumir somente dois valores e podemos representar todas as possíveis amostras de tamanho 3 , conforme mostrado abaixo: \begin{tabular}{lcc} \hline amostras (n=3)& probabilidades & média amostral \\ && \\ \hline (-1,-1,-1) & 1/8 & -1 \\ (-1,-1, 1) & 1/8 & -1/3\\ (-1, 1,-1) & 1/8 & -1/3\\ (-1, 1, 1) & 1/8 & 1/3\\ ( 1,-1,-1) & 1/8 & -1/3\\ ( 1,-1, 1) & 1/8 & 1/3\\ ( 1, 1,-1) & 1/8 & 1/3\\ ( 1, 1, 1) & 1/8 & 1\\ \hline \end{tabular} O valor da média amostral varia conforme a amostra e, neste caso, temos conhecimento das probabilidades das possíveis médias amostrais. Com estas probabilidades, é direto verificar que: E(\bar{X})=(-1) \times 1/8+(-1/3) \times 1/8 + 1/3 \times 1/8 +1 \times 1/8=0 Dessa forma, uma vez que E(\bar{X})=0=E(X) então o estimador é não viciado para o parâmetro estimado. Veja agora um resultado geral para a distribuição de probabilidade da média amostral: o [[http://www.leg.ufpr.br/~silvia/CE055/node47.html|Teorema Central do Limite]] //**Exemplo 7.15**: Uma variável aleatória X assume os valores 3, 6 e 8 com probabilidades 0,4; 0,3 e 0,3. Uma amostra com 40 observações é sorteada. A variável X não tem distribuição Normal e obtemos µ=5,4 e σ2=4,44. Apesar de não ser simétrica, consideramos que 40 observações é uma amostra grande o suficiente para usar o Teorema Central do Limite.// Para calcular a probabilidade da média amostral superar o valor 5, temos: P(\bar{X}>5)=P(\frac{\bar{X}-5,4}{\sqrt{4,44/40}} > \frac{5-5,4}{\sqrt{4,44/40}})\approx P(Z>-1,20)=0,8849. Uma aplicação importante do Teorema Central do Limite relaciona-se com a distribuição da proporção amostral: \hat{p}=\frac{\mbox{número de indiv na amostra com dada característica}}{\mbox{n}} Se construirmos para o i-ésimo indivíduo uma variável aleatória //Y//i tal que //Y//i=1 se o indivíduo apresenta a característica, e //Y//i=0 caso contrário, podemos reescrever a proporção amostral como: \hat{p}=\sum_{i=1}^n\frac{Y_i}{n}=\bar{Y} Logo, a proporção amostral nada mais é do que a média de variáveis aleatórias convenientemente definidas. Assim, da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média populacional, as proporções amostrais \hat{p} são distribuídas ao redor da verdadeira proporção populacional //p//. Devido ao Teorema Central do Limite, para //n// grande e //p// não muito próximo de 0 ou 1, a distribuição de \hat{p} será aproximadamente normalmente distribuída com média //p// e variância dada por p(1-p)/n, ou seja, \hat{p} \sim N(p,p(1-p)/n). ====== Estimação por Intervalo ====== Os estimadores discutidos até aqui são estimadores //pontuais//, pois fornecem como estimativa um único valor numérico para o parâmetro de interesse. Por serem variáveis aleatórias, os estimadores possuem uma distribuição de probabilidade e, levando este fato em consideração, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que inclua uma medida de precisão do valor obtido. Esse método de estimação, denominado //intervalo de confiança//, incorpora à estimativa pontual do parâmetro, informações a respeito de sua variabilidade. Consideremos, inicialmente, o intervalo de confiança para a média µ de uma certa população Normal, com variância conhecida σ2. Supondo uma amostra de tamanho //n// dada por //(X1, X2,..., Xn)//, vimos que a média amostral tem distribuição Normal com a mesma média µ e variância σ2///n//. Assim, Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) Fixado um valor γ tal que 0<γ<1, podemos encontrar um valor //zγ/2// tal que P(|Z| O índice de //zγ/2// apresenta o valor de γ dividido por 2 uma vez que a "massa" γ deve ser distribuída igualmente em torno de 0. {{disciplinas:ce067:semana12:figpag229.jpg|Distribuição N(0,1)}} O valor //zγ/2// pode ser obtido da tabela da Normal padrão, localizando o valor de γ/2 no corpo da tabela e obtendo o valor //zγ/2// nas margens correspondentes. Feito isso, temos o intervalo -z_{\gamma/2} que pode reescrito como \bar{X}-z_{\gamma/2}\frac{\sigma}{\sqrt{n}} < \mu < \bar{X}+z_{\gamma/2}\frac{\sigma}{\sqrt{n}} Assim, o intervalo de confiança para μ, com //coeficiente de confiança// γ, é dado por IC(\mu;\gamma)=\left[\bar{X}-z_{\gamma/2}\frac{\sigma}{\sqrt{n}};\bar{X}+z_{\gamma/2}\frac{\sigma}{\sqrt{n}}\right]. A interpretação do intervalo de confiança deve ser feita com cuidado. A expressão //IC(μ;γ)// envolve a quantidade \bar{X} que é uma variável aleatória e, portanto, o intervalo obtido também é aleatório. A probabilidade que ele contenha o verdadeiro valor da média populacional μ é dada por γ. No entanto, note que ao coletar a amostra, \bar{x} torna-se \bar{x}_{obs} e, como conhecemos σ, //n// e //zγ/2//, o intervalo passa a ser numérico. Desta forma, uma interpretação conveniente é a seguinte: //se obtivermos várias amostras de mesmo tamanho e, para cada uma delas, calculamos os correspondentes intervalos de confiança com coeficientes de confiança γ, esperamos que a proporção de intervalos que contenham o valor de μ seja igual a γ.// O exemplo de Magalhães e Lima (2004) a seguir ilustra os conceitos discutidos. //**Exemplo 7.18**: Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo Normal com média μ desconhecida e variância σ2=0,01 m2. Uma amostra de dez animais foi sorteada e forneceu média 1,69 m.// Desejamos uma estimativa para o parâmetro desconhecido μ. Uma vez que \bar{X} \sim N(\mu, \sigma^2/10) podemos proceder de forma análoga ao desenvolvimento apresentado acima e obter uma estimativa por intervalo para μ. Estabelecendo γ=95% obtemos da tabela da Normal //zγ/2//=//z0,475//=1,96. Segue então que IC(\mu;95\%)=[1,96-1,96\sqrt{0,01/10};1,96+1,96\sqrt{0,01/10}] IC(\mu;95\%)=[1,63;1,75] ==== Intervalos de Confiança Aproximados ==== A aplicação do Teorema Central do Limite (TCL) permite a obtenção de intervalos de confiança para μ e p. Neste caso, o intervalo construído terá um coeficiente de confiança //aproximadamente// igual a γ, sendo que esta aproximação melhora à medida que aumenta o tamanho da amostra. Segundo o TCL, por exemplo, um intervalo de confiança de aproximadamente 95% para //p// é portanto IC(p;95\%)=[\hat{p} - 1.96 \times \mbox{SE},\hat{p} + 1.96 \times \mbox{SE}] em que \mbox{SE} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. Note que não sabemos o verdadeiro valor de //p//, e portanto usamos \hat{p} na fórmula acima para estimar SE. Chamamos SE de erro padrão da proporção amostral. //**Exemplo**: Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, A e B, contra dor de cabeça. Cem pacientes que sofrem de dor de cabeça crônica receberam em dois tempos diferentes o analgésico A e o analgésico B. A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os pacientes desconheciam esta ordem. Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou maior alívio: o primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 preferiram B. Com base nestas informações podemos dizer que há prefência por algum dos analgésicos?// Dizemos que não há preferência por um dos analgésicos quando a proporção dos que preferem A (//pA//), é igual a proporção dos que preferem B (//pB//). Como temos dois resultados possíveis, //pA// e //pB// são iguais quando //pA//=//pB//=0,5. Um intervalo de aproximadamente 95% de confiança para a verdadeira proporção de pacientes que preferem o analgésico A é: \left(0,45 \pm 1,96 \sqrt{\frac{0,45\times0,55}{100}}\right)=(0,35;0,55) Então com aproximadamente 95% de confiança, a verdadeira proporção de pacientes que preferem o analgésico A está entre 0,35 e 0,55. Observe que este intervalo contem o valor 0,5 então concluímos que não existem evidências amostrais de preferência por um dos analgésicos. ====== Dimensionamento de Amostras ====== A //amplitude// do intervalo de confiança para μ é dada por \bar{X}+z_{\gamma/2}\frac{\sigma}{\sqrt{n}}-(\bar{X}-z_{\gamma/2}\frac{\sigma}{\sqrt{n}})=2 \times z_{\gamma/2}\frac{\sigma}{\sqrt{n}} ou seja, depende da confiança γ, do desvio padrão σ e do tamanho da amostra //n//. É usual referir-se à //semi-amplitude//, como o //erro envolvido na estimação//. Podemos utilizar esta medida para fazer o [[http://www.leg.ufpr.br/~silvia/CE055/node52.html|dimensionamento de amostras]].