Coeficiente de correlação de postos de Spearman

Nos casos em que os dados não formam uma nuvem comportada, com alguns pontos bem distantes dos demais, ou em que parece existir uma relação crescente ou descrescente num formato de curva, o coeficiente de correlação por postos de Spearman é mais apropriado.

Ele também pode ser usado quando os dados não pertencem à uma escala de medida padrão, mas existe uma ordenação clara, por exemplo, escores numa escala de 1 a 20.

Este é um método não-paramétrico que usa somente os postos, e não faz quaisquer suposições. Essencialmente tudo o que faz é calcular o coeficiente de correlação de Pearson nos postos. Uma fórmula que é relativamente fácil de usar é:

\begin{displaymath}r = 1-\frac{ 6 \sum_i d_i^2 }{(n^3-n)},\end{displaymath}

em que $n$ é o número de pares ($x_i$, $y_i$) e

\begin{displaymath}d_i =
\mbox{(posto de $x_i$ dentre os valores de $x$)} - \mbox{(posto de $y_i$ nos valores de $y$
)}.\end{displaymath}

Note que se os postos de $x$ se são exatamente iguais aos postos de $y$, então todos os $d_i$ serão zero e $r$ será 1.

Os dados abaixo foram coletados tomando amostras de 13 nascentes de rios e é feita a contagem do número de ninfas de uma certa espécie de mosquito bem como medidas da dureza da água. Existe uma relação entre os dois?

\fbox{\begin{tabular}{l\vert ccccccccccccc}
dureza da àgua & 17 & 20 & 22 & 28 &...
... ninfas & 42 & 40 & 30 & 7 & 12 & 10 & 8 & 7 & 3
& 7 & 5 & 2 & 4
\end{tabular}}

Um gráfico dos dados indica que existe uma relação negativa, mas uma linha curva descreveria melhor a relação do que uma reta.

O coeficiente de correlação de Pearson portanto não seria apropriado, e necessitamos usar o coeficiente de Spearman.

Encontre os postos manualmente e calcule as diferenças $d_i$. Calcula-se $\sum_i d_i^2 = 681$. Agora $n=13$, a qual resulta no valor $r=-0.87$ para o coeficiente de correlação.

shimakur 2016-02-29