Lee Laboratório de Epidemiologia e Estatística
Home Ensino Pesquisa Biblioteca Virtual Outros Setores

Análise de Concordância - Kappa

Para saber se uma dada caracterização/classificação de um objeto é confiável, é necessário ter este objeto caracterizado ou classificado várias vezes, por exemplo, por mais de um juiz.

Para descrevermos a intensidade da concordância entre dois ou mais juizes, ou entre dois métodos de classificação (por ex. dois testes de diagnóstico), utilizamos a medida Kappa que é baseada no número de respostas concordantes, ou seja, no número de casos cujo resultado é o mesmo entre os juízes. O Kappa é uma medida de concordância interobservador e mede o grau de concordância além do que seria esperado tão somente pelo acaso. Esta medida de concordância tem como valor máximo o 1, onde este valor 1 representa total concordância e os valores próximos e até abaixo de 0, indicam nenhuma concordância, ou a concordância foi exatamente a esperada pelo acaso. Um eventual valor de Kappa menor que zero, negativo, sugere que a concordância encontrada foi menor do aquela esperada por acaso. Sugere, portanto, discordância, mas seu valor não tem interpretação como intensidade de discordância.

Para avaliar se a concordância é razoável, fazemos um teste estatístico para avaliar a significância do Kappa. Neste caso a hipótese testada é se o Kappa é igual a 0, o que indicaria concordância nula, ou se ele é maior do que zero, concordância maior do que o acaso (teste monocaudal: H0: K = 0; H1: K > 0). Um Kappa com valor negativo, que não tem interpretação cabível, pode resultar num paradoxal nível crítico (valor de p) maior do que um.

No caso de rejeição da hipótese (Kappa=0) temos a indicação de que a medida de concordância é significantemente maior do que zero, o que indicaria que existe alguma concordância. Isto não significa necessariamente que a concordância seja alta, cabe ao pesquisador avaliar se a medida obtida é satisfatória ou não, isto baseado, por exemplo, em dados de literatura ou pesquisas anteriores. Landis JR e Koch GG sugerem a seguinte interpretação:

Values of Kappa Interpretation
<0 No agreement
0-0.19 Poor agreement
0.20-0.39 Fair agreement
0.40-0.59 Moderate agreement
0.60-0.79 Substantial agreement
0.80-1.00 Almost perfect agreement

Fonte: Landis JR, Koch GG. The measurement of observer agreement
for categorical data.
Biometrics 1977; 33: 159-174

Essa avaliação de concordância através do Kappa é utilizada quando as escalas são categóricas e sempre quando estamos comparando dois ou mais juizes.

Exemplo: Uma amostra de 30 pacientes foi avaliada por dois psicólogos (JUIZ A e JUIZ B), e cada psicólogo classificou os 30 pacientes em psicótico (1), neurótico (2) ou orgânico (3).

PACIENTE JUIZ A JUIZ B
1 1 1
2 1 1
3 1 1
4 1 1
5 1 1
6 1 1
7 1 1
8 1 1
9 1 1
10 1 1
11 1 1
12 1 1
13 1 1
14 1 1
15 1 2
16 1 3
17 2 1
18 2 1
19 2 1
20 2 2
21 2 2
22 2 2
23 2 3
24 2 3
25 3 2
26 3 3
27 3 3
28 3 3
29 3 3
30 3 3

O interesse deste estudo é saber qual é a concordância entre estes dois profissionais e se há alguma classificação com concordância maior do que as demais.

A tabela abaixo resume a informação da base de dados acima:

JUIZ B
psicótico neurótico orgânico Total
JUIZ A psicótico 14 (0,47) 1 (0,03) 1 (0,03) 16 (0,53)
neurótico 3 (0,10) 3 (0,10) 2 (0,07) 8 (0,27)
orgânico 0 (0,00) 1 (0,03) 5 (0,17) 6 (0,20)
Total 17 (0,57) 5 (0,17) 8 (0,27) 30 (1,00)



KAPPA p-valor Intervalo
de 95%
de Confiança
psicótico 0,664 < 0,001 Sup: 1,0
Inf: 0,307
neurótico 0,323 0,065 Sup: 0,665
Inf: -0,020
orgânico 0,630 < 0,001 Sup: 0,981
Inf: 0,278
Geral 0,556 < 0,001 Sup: 0,811
Inf: 0,300

Note que a concordância geral é estatisticamente diferente de zero e vale 0,556. Considerando que a concordância perfeita é a de 1,00, temos uma concordância um pouco baixa. Avaliando cada uma das três classificações, notamos que a concordância é alta quando se trata de psicóticos ou de orgânicos, porém a classificação ‘neurótico’ é a que apresenta maior discordância. Na tabela que resume os dados, já notávamos que dos 8 pacientes classificados como neuróticos pelo juiz A, apenas 3 também foram classificados desta forma pelo juiz B.

_________________

Para entrar com os dados manualmente e efetuar seus cálculos clique aqui.

Para submenter um arquivo com os dados e efetuar seus cálculos clique aqui.

_________________

Referências Bibliográficas

  • SIEGEL S, CASTELLAN N. Nonparametric Statistics for the Behavioral Sciences. 2.ed. New York: McGraw-Hill, 1988. p 284-285.
  • FLEISS Joseph L. Statistical methods for rates and proportions. New York: John Wiley, 1981. p 212-236.

Laboratório de Epidemiologia e Estatítisca.
webmaster@lee.dante.br