set.seed(984293781)
media=12
dp=1
N=5000
hemo=rnorm(N,media,dp) #nivel de hemoglobina em mulheres jovens e saud?veis
#jpeg(file='taxashemog.jpg')
hist(hemo,main='',xlab='Taxas de hemoglobina',freq=TRUE,ylab='Frequência Absoluta')
N=length(hemo)
media.pop=round(mean(hemo))
dp.pop=round(sd(hemo))
abline(v=media,lty=2,col=2,lwd=2)
#dev.off()

# Na pratica a media e o desvio-padrao sao desconhecidos!!!
# Entao uma amostra aleatoria eh selecionada e com base nesta amostra
# temos uma estimativa da media e o desvio-padrao.


#Selecionando aleatoriamente amostra de tamanho n=6
n=6

grupo=sample(1:N,size=n,replace=TRUE)

amostra=hemo[grupo]
round(amostra,2)
round(mean(amostra),2)
round(sd(amostra),2)

#Selecionando outras n mulheres...temos um resultado diferente...
grupo=sample(1:N,size=n,replace=TRUE)

amostra=hemo[grupo]
round(amostra,2)
round(mean(amostra),2)
round(sd(amostra),2) 


# PERGUNTAS:

# COMO ESTIMAR A MÉDIA E CALCULAR A PRECISÃO DA ESTIMATIVA?
 
# SERÁ QUE EXISTE UM PADRÃO ESPERADO NO COMPORTAMENTO DAS MÉDIAS?

# Vamos tentar responder estas perguntas com um exercicio de simulacao.

# Selecionando repetidamente grupos de n mulheres
# e calculando as medias e desvios-padrao com denominador n e n-1

n=6
nsim=1000
medias=NULL
sn=NULL
s=NULL
for (i in 1:nsim){
grupo=sample(1:N,size=n,replace=TRUE)
amostra=hemo[grupo]
medias=c(medias,mean(amostra))
sn=c(sn,sqrt(sum((amostra-mean(amostra))^2)/n))
s=c(s,sqrt(sum((amostra-mean(amostra))^2)/(n-1)))
}

# Histograma das estimativas do desvio-padrao
par(mfrow=c(2,1))
hist(s,main='',xlab='s',xlim=range(c(sn,s)))
abline(v=dp.pop,col=2,lwd=3)
abline(v=mean(s),col=4,lwd=3)
legend(1.5,220,c('DP Pop.','Média de s'), col=c(2,4),lty=1,lwd=3)
hist(sn,main='',xlab='sn',xlim=range(c(sn,s)))
abline(v=dp.pop,col=2,lwd=3)
abline(v=mean(sn),col=4,lwd=3)
legend(1.5,240,c('DP Pop.','Média de sn'), col=c(2,4),lty=1,lwd=3)

dp.pop
mean(s) #este eh o melhor estimador pois em media esta mais proximo do dp. pop.
mean(sn)

# Histograma das estimativas da media
par(mfrow=c(1,2))
hist(hemo,main='Taxas de hemoglobina',xlim=c(min(hemo),max(hemo)),freq=TRUE)
abline(v=media.pop,lty=1,lwd=2,col=2)
hist(medias,main='Histograma das médias (n=6)',xlim=c(min(hemo),max(hemo)),freq=TRUE)
abline(v=media.pop,lty=1,lwd=2,col=2)
abline(v=mean(medias),lwd=2,col=4)
media.pop #média pop. das taxas de hemoglobina
mean(medias) #média das médias

sd(medias) # desvio-padrão das médias < dp. pop.
dp.pop #desvio-padrão pop. dos níveis de hemoglobina


dp.pop/sqrt(n) # Note que o resultado desta conta se aproxima do sd(medias)
                 # ou seja, o desvio-padrao das medias eh dado pelo
                 # desvio-padrao da populacao dividido por sqrt(n).


# Resultado teórico: media.amostral~N(media.pop,dp.pop/sqrt(n))
par(mfrow=c(1,1))
dd=dnorm(seq(min(medias)-0.5,max(medias)+0.5,l=200),media.pop,dp.pop/sqrt(n))
hist(medias,main='',freq=FALSE,xlab='Médias amostrais',col='gray')
text(10.9,0.8,expression(paste(bar(X),'~',N(12,0.41))),col=2,cex=1.5)
lines(seq(min(medias)-0.5,max(medias)+0.5,l=200),dd,col=2)

#Com isso temos que: 95% das medias amostrais estarao dentro do intervalo
a=media.pop-1.96*dp.pop/sqrt(n)
b=media.pop+1.96*dp.pop/sqrt(n)
segments(a,0,a,dnorm(a,media.pop,dp.pop/sqrt(n)),lty=3,col=4,lwd=4)
segments(b,0,b,dnorm(b,media.pop,dp.pop/sqrt(n)),lty=3,col=4,lwd=4)
text(12,0.4,c('95%'),col=4,cex=2)

media.pop-1.96*dp.pop/sqrt(n)
media.pop+1.96*dp.pop/sqrt(n)


# Com este resultado é possível obter uma estimativa intervalar
# para a média populacional.

# demonstrar no quadro


#Vários intervalos de confiança num gráfico

li=medias-1.96*dp.pop/sqrt(n)
ls=medias+1.96*dp.pop/sqrt(n)

#probabilidade de cobertura
pc=sum(ls>media.pop&li<media.pop)/length(medias)
pc


nsim=100
li=li[1:nsim]
ls=ls[1:nsim]
plot(1:nsim,medias[1:nsim],ylim=c(min(li[1:nsim]),max(ls[1:nsim])),xlab='Amostra',ylab='Intervalo de Confiança')
abline(h=media.pop,lty=3)
segments(1:nsim,li,1:nsim,ls)
i=(ls>media.pop&li<media.pop)
segments((1:nsim)[!i],li[!i],(1:nsim)[!i],ls[!i],col=2)



# Na prática dp.pop também não é conhecido...
# ...então se estimarmos dp.pop usando o desvio-padrão da amostra

li=medias-1.96*s/sqrt(n)
ls=medias+1.96*s/sqrt(n)

#probabilidade de cobertura
pc=sum(ls>media.pop&li<media.pop)/length(medias)
pc

nsim=100
li=li[1:nsim]
ls=ls[1:nsim]
plot(1:nsim,medias[1:nsim],ylim=c(min(li[1:nsim]),max(ls[1:nsim])),xlab='Amostra',ylab='Intervalo de Confiança')
abline(h=media.pop,lty=3)
segments(1:nsim,li,1:nsim,ls)
i=(ls>media.pop&li<media.pop)
segments((1:nsim)[!i],li[!i],(1:nsim)[!i],ls[!i],col=2)


li=medias-qt(0.975,5)*s/sqrt(n)
ls=medias+qt(0.975,5)*s/sqrt(n)

#probabilidade de cobertura
pc=sum(ls>media.pop&li<media.pop)/length(medias)
pc

nsim=100
li=li[1:nsim]
ls=ls[1:nsim]
plot(1:nsim,medias[1:nsim],ylim=c(min(li[1:nsim]),max(ls[1:nsim])),xlab='Amostra',ylab='Intervalo de Confiança')
abline(h=media.pop,lty=3)
segments(1:nsim,li,1:nsim,ls)
i=(ls>media.pop&li<media.pop)
segments((1:nsim)[!i],li[!i],(1:nsim)[!i],ls[!i],col=2)


# t=(media.amostral-media.pop)/(dp.amostral/sqrt(n)) ~ t-Student

t=(medias-media.pop)/(s/sqrt(n))
tt=dt(seq(-5,5,l=200),n-1)
dd=dnorm(seq(-5,5,l=200),0,1)
hist(t,freq=FALSE,xlim=c(-5,5),main='',ylim=c(0,0.4))
legend(2,.4,c('N(0,1)','t'),col=c(2,4),lty=1)
lines(seq(-5,5,l=200),dd,col=2)
segments(-1.96,0,-1.96,dnorm(-1.96,0,1),lty=3,col=2,lwd=4)
segments(1.96,0,1.96,dnorm(1.96,0,1),lty=3,col=2,lwd=4)
#text(0,0.2,c('95%'),col=1,cex=2)
lines(seq(-5,5,l=200),tt,col=4)
segments(qt(0.025,n-1),0,qt(0.025,n-1),dt(qt(0.025,n-1),n-1),lty=3,col=4,lwd=4)
segments(qt(0.975,n-1),0,qt(0.975,n-1),dt(qt(0.975,n-1),n-1),lty=3,col=4,lwd=4)

qt(0.975,n-1) #ao inves de 1,96 o valor sera maior

li=medias-qt(0.975,n-1)*s/sqrt(n)
ls=medias+qt(0.975,n-1)*s/sqrt(n)


li=medias-1.96*s/sqrt(n)
ls=medias+1.96*s/sqrt(n)


#probabilidade de cobertura
pc=sum(ls>media.pop&li<media.pop)/length(medias)
pc

nsim=100
li=li[1:nsim]
ls=ls[1:nsim]
plot(1:nsim,medias[1:nsim],ylim=c(min(li[1:nsim]),max(ls[1:nsim])),xlab='Amostra',ylab='Intervalo de Confiança')
abline(h=media.pop,lty=3)
segments(1:nsim,li,1:nsim,ls)
i=(ls>media.pop&li<media.pop)
segments((1:nsim)[!i],li[!i],(1:nsim)[!i],ls[!i],col=2)












##########################
#TEOREMA CENTRAL DO LIMITE
##########################

dat=c(9,1,0,7,5,6,9,5,8,8,1,0,5,7,6,5,0,2,1,2,1,8,8,8,5,2,4,8,3,1,6,5,5,7,4,1,7,3,3,3,2,8,1,8,5,8,4,0,1,9,2,1,6,9,4,4,7,6,1,7,1,9,7,9,7,2,7,7,0,8,1,6,3,8,0,5,7,4,8,6,7,0,2,8,8,7,2,5,4,1,8,6,8,3,5,8,2,7,2,4)
hist(dat,breaks=seq(0,10,by=1),include.lowest = TRUE, right = FALSE,main='',xlab='x')

N=length(dat)

require(manipulate)
manipulate(
  {
nsim=5000
medias=NULL
dps=NULL
for (i in 1:nsim){
grupo=sample(1:N,size=n,replace=TRUE)
amostra=dat[grupo]
medias=c(medias,mean(amostra))
dps=c(dps,sd(amostra))
}
hist(medias,main='Histograma das médias',xlim=c(min(dat),max(dat)),freq=FALSE)
#curve(dnorm(x, media, dp/sqrt(n)),min(dat),max(dat),add=TRUE,col=2)
legend("topleft", bty="n",
         legend=substitute('n'==n, list(n=n,medias=medias)))
  },
  n=slider(2, 100, step=2, initial=2)
  )




#medias=NULL
#for (i in 1:200){
#x=dat[sample(1:length(dat),size=40,replace=TRUE)]
#medias=c(medias,mean(x))
#}
#medias
#hist(medias,freq=FALSE,main='',xlab='m?dias')





#Selecionando aleatoriamente amostra de tamanho 6
n=6

grupo=sample(1:N,size=n,replace=TRUE)

amostra=hemo[grupo]

round(amostra,2)

round(mean(amostra),2)

round(sd(amostra),2)

#Selecionando outras 6 mulheres...temos um resultado diferente...
grupo=sample(1:N,size=n,replace=TRUE)

amostra=hemo[grupo]

round(amostra,2)

round(mean(amostra),2)

round(sd(amostra),2) 




# PERGUNTAS:

# COMO ESTIMAR A M?DIA E CALCULAR A PRECIS?O DA ESTIMATIVA?
 
# SER? QUE EXISTE UM PADR?O ESPERADO NO COMPORTAMENTO DAS M?DIAS?

# Vamos tentar responder estas perguntas com um exerc?cio de simula??o.

#Selecionando repetidamente grupos de 6 mulheres
#e calculando as m?dias e desvios-padr?o
n=5
nsim=1000

medias=NULL
dps=NULL
for (i in 1:nsim){
grupo=sample(1:N,size=n,replace=TRUE)
amostra=hemo[grupo]
if(i<=10) print(round(amostra,2))
medias=c(medias,mean(amostra))
dps=c(dps,sd(amostra))
}

par(mfrow=c(1,2))
#jpeg(file='histhemo.jpg')
hist(hemo,main='Histograma do n?vel de hemoglobina',xlim=c(min(hemo),max(hemo)),freq=FALSE)
#dev.off()
#jpeg(file='histmedias6.jpg')
hist(medias,main='Histograma das m?dias (n=6)',xlim=c(min(hemo),max(hemo)),freq=FALSE)
#dev.off()
mean(medias) #m?dia das m?dias
media.pop #m?dia dos n?veis de hemoglobina

sd(medias) #desvio-padr?o das m?dias
dp.pop #desvio-padr?o dos n?veis de hemoglobina


dp.pop/sqrt(n) # Note que o resultado desta conta se aproxima do sd(medias)
                 # ou seja, o desvio-padr?o das m?dias ? dado pelo
                 # desvio-padr?o da popula??o dividido por sqrt(n).

# Resultado te?rico: media.amostral~N(media.pop,dp.pop/sqrt(n))
#                    Z=(media.amostral-media.pop)/(dp.pop/sqrt(n))~N(0,1)


par(mfrow=c(1,1))
z=(medias-media.pop)/(dp.pop/sqrt(n))
dd=dnorm(seq(-5,5,l=200),0,1)
hist(z,freq=FALSE,xlim=c(-5,5))
lines(seq(-5,5,l=200),dd,col=2)

# Com este resultado ? poss?vel obter uma estimativa intervalar
# para a m?dia populacional.



# Na prática dp.pop também não é conhecido...
# ...então se estimarmos dp.pop usando o desvio-padrão da amostra
# t=(media.amostral-media.pop)/(dp.amostral/sqrt(n)) ~ t-Student

t=(medias-media.pop)/(dps/sqrt(n))
tt=dt(seq(-5,5,l=200),n-1)
hist(t,freq=FALSE,xlim=c(-5,5))
lines(seq(-5,5,l=200),dd,col=2)
lines(seq(-5,5,l=200),tt,col=4)


##########################################################################
# Voltando ao exemplo do n?vel de hemoglobina em mulheres jovens saud?veis
#Selecionando aleatoriamente amostra de tamanho 10
n=10

grupo=sample(1:N,size=n,replace=TRUE)

amostra=hemo[grupo]

# Com base nesta amostra, o intervalo de confian?a de 95%
# para o n?vel m?dio de hemoglobina ser?:
li=mean(amostra)-qt(0.975,n-1)*sd(amostra)/sqrt(n)
ls=mean(amostra)+qt(0.975,n-1)*sd(amostra)/sqrt(n)
cbind(li,ls)
amplitude=ls-li
amplitude

# Se usarmos a distribui??o normal:
# o intervalo fica mais estreito mas n?o ? o mais correto
li=mean(amostra)-qnorm(0.975,0,1)*sd(amostra)/sqrt(n)
ls=mean(amostra)+qnorm(0.975,0,1)*sd(amostra)/sqrt(n)
cbind(li,ls)
amplitude=ls-li
amplitude



#V?rios intervalos de confian?a num gr?fico

nsim=100

medias=NULL
dps=NULL
for (i in 1:nsim){
grupo=sample(1:N,size=n,replace=TRUE)
amostra=hemo[grupo]
if(i<=10) print(round(amostra,2))
medias=c(medias,mean(amostra))
dps=c(dps,sd(amostra))
}
li=medias-qt(0.975,n-1)*dps/sqrt(n)
ls=medias+qt(0.975,n-1)*dps/sqrt(n)

plot(1:nsim,medias,ylim=c(min(li),max(ls)),xlab='Amostra',ylab='Intervalo de Confian?a')
abline(h=12,lty=3)
segments(1:nsim,li,1:nsim,ls)


##############################################################################
#TEOREMA CENTRAL DO LIMITE
##############################################################################

dat=c(9,1,0,7,5,6,9,5,8,8,1,0,5,7,6,5,0,2,1,2,1,8,8,8,5,2,4,8,3,1,6,5,5,7,4,1,7,3,3,3,2,8,1,8,5,8,4,0,1,9,2,1,6,9,4,4,7,6,1,7,1,9,7,9,7,2,7,7,0,8,1,6,3,8,0,5,7,4,8,6,7,0,2,8,8,7,2,5,4,1,8,6,8,3,5,8,2,7,2,4)
jpeg(file='h1.jpg')
hist(dat,breaks=seq(0,10,by=1),include.lowest = TRUE, right = FALSE,main='',xlab='x')
dev.off()

medias=NULL
for (i in 1:20){
x=dat[sample(1:length(dat),size=4,replace=TRUE)]
medias=c(medias,mean(x))
}
jpeg(file='h2.jpg')
hist(medias,breaks=seq(0,10,by=1),include.lowest = TRUE, right = FALSE,main='',xlab='m?dias')
dev.off()



#############################################
#distribuicao da diferenca de medias

g1=rnorm(10,25,1)
g2=rnorm(10,20,1)

cor(g1,g2)

var(g1)+var(g2)-2*cor(g1,g2)*sd(g1)*sd(g2)
var(g1-g2)

##########
antes=rnorm(10,25,1)
depois=antes-rnorm(10,2,1)
d=depois-antes
cbind(antes,depois,d)
var(d)
var(antes)+var(depois)
r=cor(antes,depois)
plot(antes,depois)

# NOTA: var(d)=var(antes)+var(depois)-2*r*sd(antes)*sd(depois)
var(antes)+var(depois)-2*r*sd(antes)*sd(depois)