CE-003: Estatística II - Turma: K/O, 2a Prova (07/12/2016)

GRR: _____________________ Nome: __________________________________________________________ Turma: ___________

1.
O nível de óxido de nitrogênio (NOX) emitido por um particular modelo de carro varia entre os veículos com média de 1,4 g∕km e desvio padrão de 0,3 g∕km. Uma companhia possui 125 carros deste modelo na sua frota. Denotando por X a média de emissão destes 125 carros, qual o nível de emissão crítico L de forma que P[X > L] seja de 0,01 ?

Solução:

X : emissão de NOX de cada veículo
X N(μ = 1,4;σ2 = 0,32)
X125 : média da emissão de uma amostra aleatória de 125 veículos
X125 N(μ = 1,4;σ2 = 0,32125)
P[X > L] = 0,01
P[Z >  L− 1,4
0,3∕√125--] = 0,01
z = -L−-1√,4--
0,3∕ 125 = 2,326
L = 1,4 + 2,3260√,3--
 125
L = 1,462

Solução computacional com o programa R:

  > L <- qnorm(0.99, m=1.4, sd=0.3/sqrt(125))
2. Identifique no problema anterior e descreva :
(a)
Qual é a “população” (no sentido estatístico).
(b)
O que define a amostra.
(c)
Qual é a distribuição amostral.

Solução:

(a)
A emissão de NOX de todos os veículos do modelo considerado.
(b)
A emissão medida na frota dos 125 veículos da empresa, considerada como sendo uma amostra aleatória da população.
(c)
A distribuição de probabilidades das médias de emissão todas possíveis amostras de 125 veículos que poderiam ser retiradas da população. Neste caso, X N(μ = 1,4;σ2 = 0,32125).
3. Uma companhia aérea afirma que 72% de todos seus voos a um certo destino chegam no horário previsto. Em uma amostra aleatória de 30 voos tomada recentemente, 19 chegaram no horário. Voce pode assumir aqui que a distribuição normal se aplica a       ˆp , a proporção amostral de voos no horário.
(a)
Calcule as estimativas pontual e intervalar da proporção de voos no horário.
(b)
Assumindo que a afirmação da cia aérea (72% de voos no horário) é verdadeira, qual a probabilidade de que seja encontrado em uma amostra de tamanho 30 uma proporção igual ou menor à detectada nesta amostra.

A cia aérea decide adotar a política de que, se uma proporção amostral (para n=30) for inferior a 70%, ela determina uma auditoria para revisão dos procedimentos.

(c)
Use um teste estatístico de hipótese para determinar se a auditoria seria recomendada no caso da amostra obtida.
(d)
Se adotar-se que a auditoria é conduzida se ˆp< 0,65, qual é a probabilidade de uma auditoria desnecessária?

Solução:

X : chegada no horário de um voo (sim/não = 1/0)
X B(p = 0,72)
Y = i=130X i : número de voos no horário em uma amostra de 30 voos
Y Bin(n = 30,p = 0,72)(distribuição amostral)
ˆp N(                          )
  μ = 0,72,σ2 = 0,72(1-− 0,72)
                    30(distribuição amostral assintótica)

(a)
Estimativa pontual: ˆp = 1390 = 0,633
Estimativa intervalar (95% de confiança, assintótico):
ˆp ± zα∕2∘ ˆp(1−-ˆp)-
  -------
     n
0,633 ± 1,96∘ ---------------
  0,633(1-−-0,633)-
        125
0,633 ± 0,0845
(0,549;0,718)
Estimativa intervalar (95% de confiança, conservador):
pˆ ± zα∕2∘ 1--
  4n
0,633 ± 1,96∘ ------
  --1---
  4⋅125
0,633 ± 0,0877
(0,546;0,721)
(b)
Solução exata, usando a distribuição amostral Y Bin(n = 30,p = 0,72):
                    19 (  )
P [Y ≤ 19|p = 0,72] = ∑ 30  0,72i(1− 0,72)30−i = 0,194
                   i=0  i

Solução aproximada, usando a distribuição amostral (assintótica) ˆpN(                      )
 μ = 0,72,σ2 = 0,72(1−0,72)
                  30:

                    0,633−-0,72
P [ˆp ≤ 0,633] = P[Z ≤ ∘ 0,72(1−0,72)] = P [Z ≤ − 1,057] = 0,145
                         30

(c)
Teste (estatístico) de hipótese (adotando-se 5% como nível de significância)
i
H0 : p 0,70 vs Ha : p < 0,70
ii
α = 0,05
iii
zc =    ˆp−p
∘-p0(10−p0)-
     n =  0,633−0,70
∘-0,70(1−0,70)
     n = 0,7968
iv
zcritico = 1,645
v
zc∕∈RRH0 (não pertence à região crítica)), não rejeita-se H0 para 5% de significância, não se recomenda a inspeção com a amostra obtida.
(d)
P[erro tipo I] = P[ˆp0,65|p = 0,72] = P[Z ∘0,65−0,72--
  0,72(1−300,72)] = P[Z ≤−0,8539] = 0,197

Solução computacional com o programa R:

  > ## a)
  > (p.est <- 19/30)

  [1] 0,6333

  > (IC95a <- p.est + qnorm(c(0.025, 0.975)) * sqrt(p.est*(1-p.est)/125))

  [1] 0,5489 0,7178

  > (IC95c <- p.est + qnorm(c(0.025, 0.975)) * sqrt(1/(4*125)))

  [1] 0,5457 0,7210

  > ## b)
  > (pB <- pbinom(19, size=30, prob=0.72))

  [1] 0,1943

  > (pN <- pnorm(p.est, mean=0.72, sd=sqrt(0.72*(1-0.72)/30)))

  [1] 0,1452

  > ## c)
  > (zc <- (p.est - 0.70)/sqrt(0.7*(1-0.7)/30))

  [1] -0,7968

  > (zcrit <- qnorm(0.05))

  [1] -1,645

  > (ifelse(zc < zc, "Rejeita H0", "Não rejeita H0"))

  [1] "Não rejeita H0"

  > ## d)
  > (pI <- pnorm(0.65, mean=0.72, sd=sqrt(0.72*(1-0.72)/30)))

  [1] 0,1966
4. (opcional) Mostra que a estimativa no problema anterior ˆp = 1930 é a obtida por um estimador de máxima verossimilhança. Para isto, mostre como é obtido o estimador de máxima verossimilhança neste caso.

Solução:

Y Bin(n = 30,p = 0,72)
L(p) = (   )
  30
  19py(1 p)ny
l(p) = log L(p) = log (  )
 30
 19 + y log(p) + (n y)log(1 p)
dl(p)
-----
 dp = 0 + y
--
p + n − y
-----
 1− p
no ponto de máximo ˆp :
y-
ˆp + n-−-y
 1− ˆp = 0
(1 pˆ )y + pˆ (n y) = 0
pˆ = y-
n
E portanto, para a amostra obtida, a estimativa de máxima verossimilhança é:
ˆp = y-= 19 = 0,633
    n   30

5. Foi obtido uma amostra aleatória de pares de dados (xi,yi) conforme a seguir.

x 1,5 1,8 1,6 2,5 4,0 3,8 4,5 5,1 6,5 6,0











y 66,8 67,0 66,9 67,6 68,9 68,7 69,3 69,8 71,0 70,6

(a)
Calcule medidas descritivas individuais que resumam cada uma das variáveis.
(b)
Deseja-se inicialmente verificar se as variáveis X e Y estão associadas. Faça e interprete um gráfico adequado. Destaque as características que devem ser examinadas no gráfico, conforme discutido no curso.
(c)
Qual medida pode ser adequada para quantiticar a associcação? Calcule e interprete.
(d)
(opcional) Deseja-se estimar o modelo
yi = 60+ θxi + ϵi.

Obtenha a expressão do estimador de mínimos quadrados de θ e o valor da estimativa obtida com a amostra dada.

Solução:

(a)

Medida Média Mediana Min Max Q1 Q3 S2 S A AI CV












X 3,73 3,9 1,5 6,5 1,8 5,1 3,35 1,83 5 3,3 49
Y 68,7 68,8 66,8 71 67 69,8 2,38 1,54 4,2 2,8 2,25












(b)
Presença de associação, positiva e “forte”, relação linear entre variáveis, não há pontos discrepantes (global ou localmente). Associação pode ser quantificada pelo coeficiente de correlação linear de Pearson que neste caso é r = 0,99989

PIC

(c)
ϵi = yi (60 + θxi)
Q(θ) = i=1nϵ i2 = i=1n[y i (60 + θxi)]2
dQ(θ)
-dθ-- = i=1n2[y i (60 + θxi)](xi)
no ponto de mínimo       ˆ
      θ :
dQ(θ)
 dθ = 0
i=1n2[y i (60 + ˆθ xi)](xi) = 0
i=1n(x iyi 60xi ˆθ xi2) = 0
i=1nx iyi 60 i=1nx i ˆθ i=1nx i2 = 0
ˆθ = ∑n           ∑n
--i=1xi∑yi −-60-i=1-xi
        ni=1x2i
e a estimativa com a amostra obtida
ˆ
θ = 2586−-60-⋅37,3-
    169,2 = 2,059

Solução computacional com o programa R:

  > x <- c(1.5, 1.8, 1.6, 2.5, 4.0, 3.8, 4.5, 5.1, 6.5, 6.0)
  > y <- c(66.8, 67.0, 66.9, 67.6, 68.9, 68.7, 69.3, 69.8, 71.0, 70.6)
  > (corXY <- cor(x,y))

  [1] 0,9999

  > sx <- sum(x); sx2 <- sum(x^2); sxy <- sum(x*y)
  > (theta.est <- (sxy-60*sx)/sx2)

  [1] 2,059

______________________________________________________________________________________________________ 6. Em um laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência de consumidores com relação a dois adoçantes artificias das marcas chamadas aqui de A e B. Entre os objetivos estava o de se determinar se consumidores do sexo masculino e feminino possuem diferentes preferências.

Sexo Preferem A Preferem B Indeciso




Feminino 50 110 40
Masculino 150 42 8




(a)
Reexpresse a tabela acima de forma a melhor representar o objetivo do estudo.
(b)
Calcule uma medida de associação adequada para quantificar a associação entre a preferência e o sexo.
(c)
Proceda um teste de hipótese estatístico adequado para examinar a significância da diferença de preferência entre os sexos.

Solução:

(a)






A B Ind




Fem 50,00 110,00 40,00
Masc 150,00 42,00 8,00





PIC

(b)
χ2 = i=16       2
(oi −-ei)
   ei = 101,8
C = ∘------
   χ2
  χ2 +-n = ∘ ---102---
  102+-400- = 0,45
T = ∘------------
  ---χ2∕n-----
  (r − 1)(s− 1) = ∘ --------
  102∕400
    2⋅3 = 0,357
(c)
i
H0 : preferência independe do sexo vs Ha : preferência depende do sexo
ii
α = 0,05
iii
χc2 = i=16     2
(oi−eeii) = 101,8
iv
Distribuição amostral: χ(2)2, χcritico2 = 5,991
v
zc RRH0 (pertence à região crítica)), rejeita-se H0 para 5% de significância, a preferência depende do sexo.

Solução computacional com o programa R:

  > M <- matrix(c(50,150, 110,42, 40,8), ncol=3)
  > dimnames(M) <- list(c("Fem","Masc"), c("A","B","Ind"))
  > M

         A   B Ind
  Fem   50 110  40
  Masc 150  42   8

  > prop.table(M, mar=1)

          A    B  Ind
  Fem  0,25 0,55 0,20
  Masc 0,75 0,21 0,04

  > barplot(t(M), legend=T, args.legend=list(x="topleft"))
  > (E <- outer(rowSums(M), colSums(M))/sum(M))

         A  B Ind
  Fem  100 76  24
  Masc 100 76  24

  > (chi2 <- sum(((M-E)^2)/E))

  [1] 101,8

  > (C <- sqrt(chi2/(chi2+sum(M))))

  [1] 0,4503

  > (T <- sqrt((chi2/sum(M))/((nrow(M)-1)*(ncol(M)-1))))

  [1] 0,3566

  > (chi2.crit <- qchisq(0.95, df=(nrow(M)-1)*(ncol(M)-1)))

  [1] 5,991

  > (ifelse(chi2 > chi2.crit, "Rejeita H0", "Não Rejeita H0"))

  [1] "Rejeita H0"

______________________________________________________________________________________________________ 7. Um conjunto de imagens foi submetido a dois algoritmos de tratamento (filtragem, correção e classificação) e foram registrados os tempos de processamento conforme a tabela a seguir.

Image 1 2 3 4 5 6 7 8 9 10











A 23.7 27.9 35.3 17.7 20.9 32.2 50.9 45.4 76.8 31.1
B 13.9 21.9 16.9 3.5 6.9 36.4 30.3 7.6 59.2 33.2











(a)
Faça um gráfico box-plot para comparar os algorítmos. Interprete os resultados.
(b)
Descreva o procedimento estatístico que pode ser utilizado para determinar se os tempos médios de processamento diferem (estatísticamente).
(c)
No contexto deste problema identifique e descreva os seguintes conceitos de inferência estatística: população(ções), amostra, parâmetro(s), distribuição amostral, erro tipo I e erro tipo II.

Solução:

(a)
A possui tempos maiores, leve assimetria em ambos, sem pontos discrepantes, variabilidade similar.

PIC

(b)
Deve-se realizar um teste (estatístico de hipóteses) no qual as hipóteses são:
H0 : μA− μB = 0(igualdade entre os tempos computacionais m édios)vsH0 : μA − μB ⁄= 0(existe diferença entre os tempos computacionais médios)

Pode-se utilizar um teste-t para diferença de duas médias ou alternativas como, por exemplo, um teste Monte Carlo, obtendo a distribuição amostral por simulação conforme discutido em aula. No caso, como as mesmas imagens foram submetidas aos algorítimos as amostras são consideradas pareadas e o teste é feito para cada diferença de tempo entra as imagens. A eventual rejeição da hipóte-se nula indicaria haver diferença estatísticamente significativas entre os tempos médios de processamento.

(c)
População(ções): São duas populações definidas pelos tempos para tratamento de imagens para cada um dos algorítmos. Às populações denotamos as variáveis aleatórias XA N(μAA2) e XB N(μBB2).
amostra: é dada pelo conjunto de dados obtido para as 10 imagens testadas. É dita pareada pelo fato da mesma imagem ter o tempo de processamento medido para ambos algorítmos.
parâmetro(s): ...
distribuição amostral:...
erro tipo I: neste caso é dado pela probabilidade de se declarar, baseando na amostra, que o tempo computacional difere entre as imagens quando de fato não há diferença nas populações.
erro tipo II: neste caso é dado pela probabilidade de se declarar, baseando na amostra, que o tempo computacional não difere entre as imagens quando há de fato diferença nas populações.

Solução computacional com o programa R:

  > A <- c(23.7, 27.9, 35.3, 17.7, 20.9, 32.2, 50.9, 45.4, 76.8, 31.1)
  > B <- c(13.9, 21.9, 16.9,  3.5,  6.9, 36.4, 30.3,  7.6, 59.2, 33.2)
  > ## quantidades necessárias para  contruir o boxplot
  > fnA <- fivenum(A)
  > Q1A <- fnA[2]; mdA <- fnA[3]; Q3A <- fnA[4]
  > ### limites para dados discrepantes
  > (LIA <- Q1A - 1.5*(Q3A - Q1A)); (LSA <- Q3A + 1.5*(Q3A - Q1A))

  [1] -8,85

  [1] 77,95

  > fnB <- fivenum(B)
  > Q1B <- fnB[2]; mdB <- fnB[3]; Q3B <- fnB[4]
  > (LIB <- Q1B - 1.5*(Q3B - Q1B)); (LSB <- Q3B + 1.5*(Q3B - Q1B))

  [1] -30,8

  [1] 71,6

  > boxplot(A,B, names=c("A","B"))

______________________________________________________________________________________________________