CE-003: Estatística II, turma A, 1a Prova - 1o semestre 2009 (08/04/2009)


  1. A tabela a seguir apresenta dados do peso de carne em gramas de mexilhões de dois locais.







    Sambaqui
    Manguezal






    30,6142,8827,9425,34 9,49 19,17
    28,8936,2241,4525,6716,9221,60
    32,2128,8642,5917,6412,9120,01
    24,2522,5615,2533,9714,0519,81
    25,6322,9233,2911,1314,8816,22






    1. faça um único diagrama "ramo-e-folhas" com todos os dados. Marque (sublinhe) as “folhas” referentes aos dados do grupo sambaqui
    2. obtenha a média, desvio padrão e coeficiente de variação para cada grupo
    3. obtenha a mediana, quartis, amplitude interquartilíca e amplitude total para cada grupo
    4. faça em um mesmo gráfico os diagramas "box-plot" dos dois grupos separadamente
    5. discuta os dados comparando os grupos com base nos resultados dos items anteriores
    1.   > Sam <- c(30.61, 42.88, 27.94, 28.89, 36.22, 41.45, 32.21, 28.86, 42.59, 24.25,
        +     22.56, 15.25, 25.63, 22.92, 33.29)
        > Man <- c(25.34, 9.49, 19.17, 25.67, 16.92, 21.6, 17.64, 12.91, 20.01, 33.97,
        +     14.05, 19.81, 11.13, 14.88, 16.22)
        > stem(c(Sam, Man))
          The decimal point is 1 digit(s) to the right of the |
        
          0 | 9
          1 | 134
          1 | 556789
          2 | 002334
          2 | 566899
          3 | 1234
          3 | 6
          4 | 133
    2.   > c(Média = mean(Sam), DesvioPadrão = sd(Sam), CV = 100 * sd(Sam)/mean(Sam))
               Média DesvioPadrão           CV
           30.370000     7.974053    26.256350
        > c(Média = mean(Man), DesvioPadrão = sd(Man), CV = 100 * sd(Man)/mean(Man))
               Média DesvioPadrão           CV
           18.587333     6.321971    34.012255
    3.   > ## Sambaqui:
        > ## Dados originais:
        > Sam.fn <- fivenum(Sam)
        > c(Mediana = Sam.fn[3], Q1 = Sam.fn[2], Q3 = Sam.fn[4], AIQ = diff(Sam.fn[c(2,4)]), A = diff(Sam.fn[c(1,5)]))
        Mediana      Q1      Q3     AIQ       A
         28.890  24.940  34.755   9.815  27.630
        > ## Resultado aproximado utilizando dados do ramo-e-folhas (arredondados)
        > Sam.fn1 <- fivenum(round(Sam))
        > c(Mediana = Sam.fn1[3], Q1 = Sam.fn1[2], Q3 = Sam.fn1[4], AIQ = diff(Sam.fn1[c(2,4)]), A = diff(Sam.fn1[c(1,5)]))
        Mediana      Q1      Q3     AIQ       A
           29.0    25.0    34.5     9.5    28.0
        > ##
        > ## Manguezal:
        > ## Dados originais:
        > Man.fn <- fivenum(Man)
        > c(Mediana = Man.fn[3], Q1 = Man.fn[2], Q3 = Man.fn[4], AIQ = diff(Man.fn[c(2,4)]), A = diff(Man.fn[c(1,5)]))
        Mediana      Q1      Q3     AIQ       A
         17.640  14.465  20.805   6.340  24.480
        > ## Resultado aproximado utilizando dados do ramo-e-folhas (arredondados)
        > Man.fn1 <- fivenum(round(Man))
        > c(Mediana = Man.fn1[3], Q1 = Man.fn1[2], Q3 = Man.fn1[4], AIQ = diff(Man.fn1[c(2,4)]), A = diff(Man.fn1[c(1,5)]))
        Mediana      Q1      Q3     AIQ       A
           18.0    14.5    21.0     6.5    25.0

    4.   > boxplot(Sam, Man, names = c("Sambaqui", "Manguezal"))

      PIC


    5. Comentários: (as respostas serão analisadas - seguem alguns pontos a serem mencionados)
      A área de Sambaqui apresentna pesos nitidamente maiores. Embora apresetne medidas de variabilidade maiores (por ex. desvio padrão, amplitude interquartilica) a variação relativa à média (CV) é inferior. Ambas áreas possuem distribuições simétricas. Há um dado atípico (valor alto) na área de Manguezal.
  2. A tabela a seguir apresenta valores de condutividade (mho) e salinidade (g∕l) coletados na lagoa da Conceição em Florianópolis. Construa um gráfico adequado para representar os dados e discuta se há relação entre estes dois atributos da água, justificando sua resposta com o uso de alguma medida estatística adequada.




    EstaçãoCondutividadeSalinidade



    23 19,92 3,85
    24 11,78 2,26
    25 14,11 2,06
    26 16,10 2,89
    27 36,52 9,61
    28 51,46 11,40




      > cond <- c(19.92, 11.78, 14.11, 16.1, 36.52, 51.46)
      > sali <- c(3.85, 2.26, 2.06, 2.89, 9.61, 11.4)
      > sapply(c("pearson", "kendall", "spearman"), function(m) cor(cond, sali, method = m))
        pearson   kendall  spearman
      0.9839660 0.8666667 0.9428571
      > plot(cond, sali)

    PIC


    O diagrama de dispersão mostra uma relação aproximadamente linear, positiva e sem presença de dados discrepantes. Desta forma os diferentes coeficientes de correlação apresetam valores parecidos e indicam forte associação.

  3. Em um estudo para se verificar a qualidade da água em um estado serão coletar 300 amostras e medidas (entre outras): uma classe de qualidade com valores excelente, satisfatório, baixo, crítico e a caracterização da região de coleta que pode ser tipo A, tipo B ou tipo C. Pretende-se investigar com base nos dados se qualidade da água está relacionada com o tipo de região. Descreva, com base no conteúdo do curso visto até aqui, como deverão ser feitas análises estatísticas para investigar esta questão.

    Deve-se montar uma tabela de cruzamento das variáveis ondem podem ser computadas frequências relativas a proporções (porcentagens), por exemplo de classes de qualidade em cada região. Proporções semelhantes indicam fraca associassão entre os atributos e proporções distintas indicam associação, ou seja, que a qualidade depende da região de coleta. A intensidade da associação pode ser medida pelo χ2 e/ou medidas derivadas como os coeficientes de contingência.

  4. Suponha que voce faça parte de uma equipe trabalhando em um estudo de contaminação aguda de indivíduos por resíduos tóxicos e submetidos a três procedimentos de desintoxicação. A tabela a seguir mostra apenas uma parte dos dados coletados para se ter uma idéia da sua estrutura. Os registros correspondem a:







    IndIdadeTDTRProcedManchas






    19 15 7 3 II não
    4 76 52 45 I sim
    27 15 30 23 III sim
    7 21 53 46 I não
    14 11 3 2 II sim






    Descreva como voce, com base no conteúdo do curso visto até aqui, conduziria análises destes dados. Inclua na sua discussão como seriam feitas investigações de ao menos quatro associações de possível interesse entre os atributos coletados.

    Inicialmente deverá ser conduzida uma análise univariada, a partir da identificação to tipo de cada variável (qualitativa/quantitativa, nominal/ordinal, discreta contínua). A seguir relações entre variáveis podem ser estudadas com análises bivariadas. Alguns exemplos: Idade vs Tempo de Recuperação (quantitativa versus quantitativa) para investigar de o tempo de recuperação está associado com a idade, que pode ser investigado com diagramas de dispersão e coeficientes de correlação. Procedimento vs Tempo de Recuperação (qualitativa versus quantitativa) para investigar de o tempo de recuperação está associado com o tipo de tratamento, que pode ser investigado com cálculo de medidas descritivas do tempo de recuperação para cada um dos tratamentos. Idade vs Manchas (quantitativa versus qualitativa) para investigar se a presença de manchas está associado com a idade, que pode ser investigado com a comparação de medidas descritivas da idade para pacientes com e sem manchas. Tempo de diagnóstico vs Tempo de Recuperação (quantitativa versus quantitativa) para investigar de o tempo de recuperação está associado com o tempo de diagnóstico, que pode ser investigado com diagramas de dispersão e coeficientes de correlação.