CE-003: Estatística II, 2a Prova - 1o semestre 2011 (25/05/2011)


  1. Um professor decidiu fazer algumas análises de dados de um grupo de alunos. Os dados disponíveis foram organizados em uma planilha com linhas e colunas. Cada linha contém os dados de um aluno e cada coluna os atributos do aluno. Há dados para 75 alunos e parte dos dados (três alunos) é mostrada a seguir.
    GRR        Turma   Sexo    Ano   nX   VestG  VestM  Prova1  
    20096666     E       M    2010    1    78      50     59  
    20089999     O       F    2009    3    54      55     66  
    20101111     E       F    2010    0    89      90     87  
    ...

    Os atributos são:

    Considerando estes dados disponíveis, responda baseando-se em possíveis análises estatísticas.

    1. Classifique cada uma das variáveis.
    2. Se voce tivesse que resumir cada uma das variáveis por alguma medida estatística, qual medida voce calcularia?
    3. Considere agora que voce faria um gráfico para ilustrar cada uma das variáveis. Esboce o gráfico que seria utilizado para cada variável.
    4. Deseja-se verificar se a nota geral e/ou a da prova de matemática no vestibular estão associadas ao desempenho dos alunos na 1a prova do curso. Que tipo de análise estatística (gráficos e/ou medida(s)) voce usaria para decidir se há relação? Se voce tivesse que apontar uma delas como preditora do desempenho na 1a prova, qual usaria? Justifique, baseando-se nos possíveis resultados da análise dos dados?
    5. Deseja-se verificar se o rendimento na 1a prova difere entre os sexos. Como voce faria esta comparação?
    6. Que medidas estatísticas voce calcularia para comparar o rendimento na prova de matemática dos alunos das duas turmas?
    7. Qual(ais) medida(s) estatística(s) poderia(m) ser calculada(s) para verificar se as turmas diferem em relação a distribuição dos sexos dos alunos?
    8. Deseja-se saber se o número de vezes que a disciplina foi cursada difere entre as turmas. Como voce investigaria se há esta relação?
    9. Desconfia-se que a nota de matemática no vestibular se alterou ao longo dos anos. Como voce verificaria isto? Como avaliaria se tal relação depende da turma?
    10. o gráfica abaixo mostra as notas na 1a prova para cada uma das turmas. Interprete e comente o gráfico, comparando as turmas.

      PIC

  2. Considere os dados a seguir:
    35  39  50  47  33  17  17  80  23  51  12  30  20  
    18  20  21  20  45  12  81  98  47  34  25  19  27

    1. Calcule a média e mediana.
    2. Obtenha os quartis.
    3. Obtenha o 1o e o 9o decil (isto é, os quantis 0,10 e 0,90).
    4. Calcule o desvio padrão e coeficiente de variação.
    5. Qual seria o valor de cada uma das medidas acima se:
      • acrescente-se 15 a cada dado,
      • cada dado fosse aumentado em 10%.
    6. Obtenha uma distribuição de frequência para os dados.
    7. Obtenha o histograma dos dados.
    8. Desenhe o diagrama ramo-e-folhas.
    9. Faça o box-plot dos dados

    Resposta :

      > dat2 <- scan(textConnection("\n35  39  50  47  33  17  17  80  23  51  12  30  20   \n18  20  21  20  45  12  81  98  47  34  25  19  27"))

    1. média: x = 35.4 e mediana md = 28.5
    2. Quartis: q1 = 20, q2 = md = 28.5, q3 = 47,
    3. 1o decil: q 0,10 = 17 e 9o decil: q 0,90 = 65.5
    4. desvio padrão: S = 22.3 e coeficiente de variação CV = 63%

      • média, mediana, quartis e decis: aumentariam 15 unidades
        x = 50.4, md = 43.5, q1 = 35, q2 = 43.5, q3 = 62, q0,10 = 32 e q0,90 = 80.5.
        desvio padrão: não alteraria S = 22.3.
        CV: reduziria, CV = 44.3%.

      • média, mediana, quartis e decis: aumentariam 10%
        x = 39, md = 46.4, q1 = 22, q2 = 31.4, q3 = 51.7, q0,10 = 18.7 e q0,90 = 72.05.
        desvio padrão: aumentaria 10% S = 24.5.
        CV: não se alteraria, CV = 63%.
    5.   > table(cut(dat2, breaks = (0:5) * 20))

          (0,20]  (20,40]  (40,60]  (60,80] (80,100]
               9        9        5        1        2
    6.   > par(mfrow = c(1, 2), mar = c(3.2, 3.2, 0.5, 0.5), mgp = c(2, 1,
        +     0))
        > hist(dat2, main = "")
        > rug(dat2)
        > boxplot(dat2)

      PIC

    7. Desenhe o diagrama ramo-e-folhas.
        > stem(dat2)

          The decimal point is 1 digit(s) to the right of the |
        
          1 | 227789
          2 | 0001357
          3 | 03459
          4 | 577
          5 | 01
          6 |
          7 |
          8 | 01
          9 | 8
  3. Considere agora que os dados da questão anterior são referentes a dois grupos. Os da primeira linha são do grupo A e os da segunda do grupo B. Compare os grupos utilizando análise estatísticas dos dados.

    Resposta :

      > dat <- data.frame(grupo = rep(c("A", "B"), each = 13), dados = dat2)
      > aggregate(dados ~ grupo, data = dat, FUN = function(x) round(c(media = mean(x),
      +     sd = sd(x), CV = 100 * sd(x)/mean(x))))

        grupo dados.media dados.sd dados.CV
      1     A          35       19       54
      2     B          36       26       73

      > aggregate(dados ~ grupo, data = dat, FUN = fivenum)

        grupo dados.1 dados.2 dados.3 dados.4 dados.5
      1     A      12      20      33      47      80
      2     B      12      20      25      45      98

      > par(mar = c(3.5, 3.5, 0.5, 0.5), mgp = c(2, 1, 0))
      > with(dat, boxplot(dados ~ grupo))
      > points(1:2, with(dat, tapply(dados, grupo, mean)), pch = "X")

    PIC

    Os grupos tem desempenho semelhante quanto a suas medidas centrais e variabilidade, com um resultado um pouco superior para o grupo A. O grupo B apresenta mediana um pouco inferior. O grupo A possui distribuição simátrica enquanto que B possui distribuição assimétrica (a direita) e um valor alto considerado discrepante. Isto explica as médias similares e mediana inferior de B.