CE-003: Estatística II, turma L

2a Prova - 2o semestre 2007 (16 Outubro de 2007)

  1. (14 pontos) Os dados abaixo mostram as seis primeira linhas de uma tabela de 64 dados sobre categorias de segurados de uma companhia seguradora expostos ao risco e o número de sinistros reclamados durante um certo período do ano. As colunas da tabela referem-se a:
        District  Group   Age Holders Claims
      1        1    <1l   <25     197     38
      2        1    <1l 25-29     264     35
      3        1    <1l 30-35     246     20
      4        1    <1l   >35    1680    156
      5        1 1-1.5l   <25     284     63
      6        1 1-1.5l 25-29     536     84
    1. Classifique (informe o tipo de) cada uma das variáveis
    2. para cada variável indique qual o tipo de gráfico adequado para resumir os dados
    3. além dos gráficos quais outros resumos seriam adequados para cada variável?
    4. discuta sobre alguma outra variável de interesse que poderia ser obtida a partir de alguma operação efetuada com algumas das variáveis originais
    5. classifique esta variável e diga que gráfico e quais medidas poderiam se utilizadas para resumir a variável
    6. formule duas questões de possível interesse envolvendo duas das variáveis
    7. diga que tipo de gráfico e medidas poderiam ser utilizados para responder tais questões

    Respostas: Note que a tabela já é um resumo com os totais em cada uma das 4 × 4 × 4 = 64 categorias de segurados. As operações e gráficos devem portanto considerar a expansão do número de dados em cada categoria.

      • District: qualitativa nominal ou ordinal, dependendo se os códigos se relacionam com o tamanho do município
      • Group: qualitativa ordinal
      • Age: quantitativa contínua, porém medida como qualitativa ordinal
      • Holders: quantitativa discreta
      • Claims: quantitativa discreta
      • District: setores ("pizza") se tratada como nominal, ou barras se tratada como ordinal
      • Group: barras
      • Age: barras
      • Holders: hastes verticais são usadas para variáveis discretas. Entretanto, gráficos para variáveis contínuas como histograma podem ser usados devido ao grande variação nos valores medidos. Ramos e folhas e box-plot tb poderiam ser utilizados.
      • Claims: idem anterior
    1. além dos gráficos quais outros resumos seriam adequados para cada variável?
      • District: tabelas de frequências (absolutas e/ou relativas), moda. Outras medidas possíveis se tratada como ordinal
      • Group: tabelas de frequências (absolutas e/ou relativas), moda, mediana, quantis.
      • Age: tabelas de frequências (absolutas e/ou relativas), moda, mediana, quantis.
      • Holders: tabelas de frequências (absolutas e/ou relativas) para dados agrupados devido ao grande número de valores possíveis, moda, mediana, quantis, médias, variância e desvio padrão, coeficiente de variação.
      • Claims: idem anterior
    2. uma possibilidade seria calcular a proporção de sinistros em cada categoria dada pela divisão do número de requisições ("claims") dividida pelo número de segurados ("holders").
    3. esta seria uma variável quantitativa contínua com possíveis valores no intervalo [0.1] que poderia ser resumida por histograma, gráfico de densidade empírica, box-plot ou ramo-e-folhas.
    4. as questões propostas a seguir são duas entre diversas possíveis.
      • 1a. a proporção de requisições está associada com a idade?
      • 2a. a proporção de requisições varia entre os distritos?
    5. em ambas questões poderiam-se calcular medidas resumo (por exemplo, médias, variâncias) da proporção de requisições para cada faixa de idade e para cada distrito. O gráfico poderia ser, por exemplo, uma representação visual de tais resultados com barras indicando a média e desvio padrão de cada categoria.
  2. (08 pontos) O diagrama ramo-e-folhas abaixo mostra medidas do fluxo anual do rio Nile próximo à cidade de Ashwan no período de 1871-1970.
      A casa decimal está 2 digitos à direita de |  
     
       4 | 6  
       5 |  
       6 | 5899  
       7 | 000123444455667778  
       8 | 000011222233344555556667779  
       9 | 0011222244466678899  
      10 | 0122234455  
      11 | 00012244566678  
      12 | 112356  
      13 | 7

    1. Obtenha a mediana e quartis dos dados
    2. Obtenha o máximo, mínimo, primeiro e nono decis
    3. Faça um diagrama box-plot dos dados
    4. O que pode ser dito da distribuição dos dados baseando-se nos gráficos e medidas?

    Respostas:

    1.      Mediana 1o Quartil 3o Quartil
               895        800       1035
    2.        Min      Max 1o decil 9o decil
             460     1370      725     1160
    3. boxplot: PIC
    4. distribuição simétrica, sem dados discrepantes (atípicos) com coeficiente de variação de 18.43%.
  3. (13 pontos) Uma pesquisa foi feita com uma amostra de 237 estudantes de uma Universidade que responderam a diversas questões. A seguir são mostrados os resultados de algumas análise de interesse. O gráfico da esquerda mostra um boxplot dos dados do tamanho da mão (distância entre dedos opostos na mão espalmada) para cada um dos sexos. O da direita mostra o gráfico da altura do estudante versus o tamanho da mão (Wr.Hnd). A tabela mostra o cruzamento entre a mão usada pelo estudante para escrever (Wr.Hnd, nas linhas) e a mão que fica por cima quando o estudante bate palmas (Clap, nas colunas).


    PIC






    LeftNeitherRight




    Left 9 5 4
    Right 29 45 143





    1. Para gráfico diga qual a questão de interesse o como o resultado do gráfico pode ser interpretado.
    2. Que tipo de medida(s) poderia(m) ser calculadas a partir dos dados originais para verificar a relação entre as duas variáveis de cada gráfico.
    3. Para a tabela, descreva qual a questão de interesse e como os resultados da tabela podem ser interpretados.
    4. Calcule alguma(s) medida(s) de associação adequada para os dados da tabela.

    Respostas:

      • esquerda: se o tamanho da mão difere entre os sexos. O gráfico mostra que sim, com homens possuindo, em geral, mão maior, uma vez que o 1o quartil dos homens é maior que o terceiro das mulheres. Isto não impede de haver algumas mulheres com mão maiores do que de homens e nota-se também alguns dados discrepantes.
      • direita: este gráfico verifica se a altura está relacionada com o tamanho da mão. O formato do gráfico sugere que sim porém a relação não é muito forte, o que se nota devido a grande dispersão entre os pontos.
      • esquerda: medidas descritivas tais como média, desvio padrão, coeficiente de variação, mediana, quantis mínimos e máximos para cada grupo.
      • direita: algum coeficiente de correlação. O diagrama mostra uma relação aproximadamente linear, sugerindo que o coeficiente de correlação linear de Pearson poderia ser utilizado.
    1. verificar se há relação entre as duas variáveis consideradas, ou seja se eles são dependentes ou não. No caso de dependência fraca ou independência as proporções da mão que fica por cima seriam aproximadamente as mesmas para indivíduos com escrita destra ou canhota.
    2. poderiam ser calculados o Chi-quadrado (χ2), coeficiente de contingência (C) ou coeficiente de contingência modificado (T).
        Chi-Quadrado            C            T
          19.2523891    0.2751755    0.2023920