Next: 3 Alguns recursos do Up: CE-210: Inferência Estatística II Previous: 1 Introdução Sumário

Subsections

2.1 Distribuição Normal
2.2 Distribuição Binomial
2.3 Exercícios

2 Distribuições de Probabilidade

O programa R inclui funcionalidade para operações com distribuições de probabilidades. Para cada distribuição há 4 operações básicas indicadas pelas letras:

d: calcula a densidade de probabilidade no ponto
p: calcula a função de probabilidade acumulada no ponto
q: calcula o quantil correspondente a uma dada probabilidade
r: amostra da distribuição

2.1 Distribuição Normal

A funcionalidade para distribuição normal é implementada por argumentos que combinam as letras acima com o termo norm. Vamos ver alguns exemplos com a distribuição normal padrão.

> dnorm(-1)
[1] 0.2419707

> (1/sqrt(2*pi)) * exp((-1/2)*(-1)^2)
[1] 0.2419707

> pnorm(-1)
[1] 0.1586553

> qnorm(0.975)
[1] 1.959964

> rnorm(10)
 [1] -0.0442493 -0.3604689  0.2608995 -0.8503701 -0.1255832  0.4337861
 [7] -1.0240673 -1.3205288  2.0273882 -1.7574165

O primeiro valor acima corresponde ao valor da densidade da normal

$\begin{displaymath}f(x) = \frac{1}{2 \pi \sigma^2}\exp\{\frac{1}{2\sigma^2}(x - \mu)^2\}\end{displaymath}$

com parâmetros $(\mu=0, \sigma^2=1)$ no ponto

, como pode ser confirmado com o cálculo apresentado no segundo comando.
A função pnorm(-1) calcula a probabilidade

.
O comando qnorm(0.975) calcula o valor de

tal que

.
Finalmente o comando rnorm(10) gera uma amostra de 10 elementos da normal padrão.

Nota: cada vez que o comando rnorm é chamado diferentes elementos da amostra são produzidos, porque a semente do gerador é modificada. Para gerar duas amostras idênticas deve-se usar o comando set.seed como ilustrado abaixo.

> set.seed(214)     # define o valor da semente
> rnorm(5)          # amostra de 5 elementos
[1] -0.46774980  0.04088223  1.00335193  2.02522505  0.30640096
> rnorm(5)          # outra amostra de 5 elementos
[1]  0.4257775  0.7488927  0.4464515 -2.2051418  1.9818137
> set.seed(214)     # retorna o valor da semente ao valor inicial
> rnorm(5)          # gera novamente a primeira amostra de 5 elementos
[1] -0.46774980  0.04088223  1.00335193  2.02522505  0.30640096

As funções acima possuem argumentos adicionais, para os quais valores padrão (default) foram assumidos, e que podem ser modificados. Usamos args para ver os argumentos de uma função e help para visualisar a documentação detalhada:

> args(rnorm)
function (n, mean = 0, sd = 1)

As funções relacionadas à distribuição normal tem (entre outros) os argumentos mean e sd para definir média e desvio padrão da distribuição que podem ser modificados como nos exemplos a seguir.

> qnorm(0.975, mean = 100, sd = 8)
[1] 115.6797

> qnorm(0.975, m = 100, s = 8)
[1] 115.6797

> qnorm(0.975, 100, 8)
[1] 115.6797

Para informações mais detalhadas pode-se usar a função help. O comando

> help(rnorm)

irá exibir em uma janela a documentação da função que pode também ser chamada com ?rnorm. Note que ao final da documentação são apresentados exemplos que podem ser rodados pelo usuário e que auxiliam na compreensão da funcionalidade.
Note que as 4 funções relacionadas à distribuição normal são documentadas conjuntamente, portanto help(rnorm), help(qnorm), help(dnorm) e help(pnorm) vão exibir a mesma documentação.

Estas funções aceitam também vetores em seus argumentos como ilustrado nos exemplo abaixo.

> qnorm(c(0.05, 0.95))
[1] -1.644854  1.644854
> rnorm(4, mean=c(0, 10, 100, 1000))
[1]   0.1599628   9.0957340 100.5595095 999.9129392
> rnorm(4, mean=c(10, 20, 30, 40), sd=c(2, 5))
[1] 10.58318 21.92976 29.62843 42.71741

Note que no último exemplo a lei da reciclagem foi utilizada no vetor de desvios padrão, i.e. os desvios padrão utilizados foram

Cálculos de probabilidades usuais, para os quais utilizávamos tabelas estatísticas podem ser facilmente obtidos como no exemplo a seguir.

Seja uma v.a. com distribuição . Calcular as probabilidades:

Os comandos do R são:

> pnorm(95, 100, 10)
[1] 0.3085375

> pnorm(110, 100, 10) - pnorm(90, 100, 10)
[1] 0.6826895

> 1 - pnorm(95, 100, 10)
[1] 0.6914625
> pnorm(95, 100, 10, lower=F)
[1] 0.6914625

Note a última probabilidade foi calculada de duas formas diferentes, sendo a segunda usando o argumento lower mais estável numericamente.

A seguir vamos ver comandos para fazer gráficos de distribuições de probabilidade. Vamos fazer gráficos de funções de densidade e de probabilidade acumulada. Estude cuidadosamente os comandos abaixo e verifique os gráficos por eles produzidos. A Figura 1 mostra gráficos da densidade (esquerda) e probabilidade acumulada da normal padrão produzidos com os comandos:

> plot(dnorm, -3, 3)
> plot(pnorm, -3, 3)

**Figura** : Funções de densidade e probabilidade da distribuição normal padrão.
$\begin{figure}\centerline{\includegraphics[width=\textwidth]{figuras/prob01.ps}}\end{figure}$

A Figura mostra gráficos da densidade (esquerda) e probabilidade acumulada da produzidos com os comandos:

> plot(function(x) dnorm(x, 100, 8), 70, 130)
> plot(function(x) pnorm(x, 100, 8), 70, 130)

**Figura** : Funções de densidade e probabilidade da .
$\begin{figure}\centerline{\includegraphics[width=\textwidth]{figuras/prob02.ps}}\end{figure}$

Podemos incluir títulos e mudar texto dos eixos conforme mostrado na gráfico da esquerda da Figura e nos dois primeiros comandos abaixo. Os demais comandos mostram como colocar diferentes densidades em um um mesmo gráfico como ilustrado à direita da mesma Figura.

> plot(dnorm, -3, 3, xlab='valores de X', ylab='densidade de probabilidade')
> title('Distribuicão Normal\nX ~ N(100, 64)')
 
> plot(function(x) dnorm(x, 100, 8), 60, 140, ylab='f(x)')
> plot(function(x) dnorm(x, 90, 8), 60, 140, add=T, col=2)
> plot(function(x) dnorm(x, 100, 15), 60, 140, add=T, col=3)
> legend(120, 0.05, c("N(100,64)","N(90,64)","N(100,225)"), fill=1:3)

**Figura** : Gráfico com texto nos eixos e título (esquerda) e várias distribuições em um mesmo gráfico (direita).
$\begin{figure}\centerline{\includegraphics[width=\textwidth]{figuras/prob03.ps}}\end{figure}$

2.2 Distribuição Binomial

Cálculos para a distribuição binomial são implementados combinando as letras básicas vistas acima com o termo binom. Vamos primeiro investigar argumentos e documentação com os comandos args e binom.

> args(dbinom)
function (x, size, prob, log = FALSE) 

> help(dbinom)

Seja uma v.a. com distribuição Binomial com e . Vamos ver os comandos do R para:

fazer o gráfico das função de densidade
idem para a função de probabilidade
calcular
calcular $P[X < 8] = P[X \leq 7]$
calcular $P[X \geq 8] = P[X > 7]$
calcular $P[3 < X \leq 6] = P[4 \geq X < 7]$

Note que sendo uma distribuição discreta de probabilidades os gráficos são diferentes dos obtidos para distribuição normal e os cálculos de probabilidades devem considerar as probabilidades nos pontos. Os gráficos das funções de densidade e probabilidade são mostrados na Figura .

> x <- 0:10

> fx <- dbinom(x, 10, 0.35)
> plot(x, fx, type='h')

> Fx <- pbinom(x, 10, 0.35)
> plot(x, Fx, type='S')

> dbinom(7, 10, 0.35)
[1] 0.02120302

> pbinom(7, 10, 0.35)
[1] 0.9951787
> sum(dbinom(0:7, 10, 0.35))
[1] 0.9951787

> 1-pbinom(7, 10, 0.35)
[1] 0.004821265
> pbinom(7, 10, 0.35, lower=F)
[1] 0.004821265

> pbinom(6, 10, 0.35) - pbinom(3, 10, 0.35)
[1] 0.4601487
> sum(dbinom(4:6, 10, 0.35))
[1] 0.4601487

**Figura** : Funções de densidade e probabilidade da .
$\begin{figure}\centerline{\includegraphics[width=\textwidth]{figuras/prob04.ps}}\end{figure}$

2.3 Exercícios

Nos exercícios abixo iremos também usar o R como uma calculadora estatística para resolver alguns exemplos/exercícios de probabilidade tipicamente apresentados em um curso de estatística básica.

Os exercícios abaixo com indicação de página foram retirados de:
Magalhães, M.N. & Lima, A.C.P. (2001) Noções de Probabilidade e Estatística. 3 ed. São Paulo, IME-USP. 392p.

(Ex 1, pag 67) Uma moeda viciada tem probabilidade de cara igual a 0.4. Para quatro lançamentos independentes dessa moeda, estude o comportamento da variável número de caras e faça um gráfico de sua função de distribuição.
(Ex 3.6, pag 65) Num estudo sobre a incidência de câncer foi registrado, para cada paciente com este diagnóstico o número de casos de câncer em parentes próximos (pais, irmãos, tios, filhos e sobrinhos). Os dados de 26 pacientes são os seguintes:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13

Incidência 2 5 0 2 1 5 3 3 3 2 0 1 1

Paciente 14 15 16 17 18 19 20 21 22 23 24 25 26

Incidência 4 5 2 2 3 2 1 5 4 0 0 3 3

Estudos anteriores assumem que a incidência de câncer em parentes próximos pode ser modelada pela seguinte função discreta de probabilidades:

Incidência 0 1 2 3 4 5

0.1 0.1 0.3 0.3 0.1 0.1
- os dados observados concordam com o modelo teórico?
- faça um gráfico mostrando as frequências teóricas (esperadas) e observadas.
(Ex 5, pag 77) Sendo uma variável seguindo o modelo Binomial com parâmetro e , pergunta-se:
- $P(X \geq 14)$
- $P(8 < X \leq 10)$
- $P(X < 2 \;{\rm ou }\; X \geq 11)$
- $P(X \geq 11 \;{\rm ou}\; X > 13))$
- $P(X > 3 \;{\rm e}\; X < 6)$
- $P(X \leq 13 \;\vert\; X \geq 11)$
(Ex 8, pag 193) Para , obtenha:
- $P(X \leq 115)$
- $P(X \geq 80)$
- $P(X \leq 75)$
- $P(85 \leq X \leq 110)$
- $P(\vert X - 90\vert \leq 10)$
- P valor de tal que $P(90-a \leq X \leq 90+a) = \gamma, \; \gamma=0.95$
Faça os seguintes gráficos:
- da função de densidade de uma variável com distribuição de Poisson com parametro
- da densidade de uma variável $X \sim N(90, 100)$
- sobreponha ao gráfico anterior a densidade de uma variável $Y \sim N(90, 80)$ e outra $Z \sim N(85, 100)$
- densidades de distribuições Chi-quadrado com 1, 2 e 5 graus de liberdade.