Mini Project

Measuring Annotation Quality: A Mini Evaluation Project

How I used Cohen’s Kappa and F1 to diagnose disagreement and refine a pain descriptor guideline.

Sep 2025

1. Context

Annotation quality depends on consistency between annotators. Metrics make that visible. I ran a small test on a draft pain descriptor scheme to check that different people could apply the labels the same way.

2. Mini Dataset

I built a small list of pain expressions with two compatible schemes, a metaphor based layer and a clinical layer. Two annotators labelled the same items independently.

Item	Annotator A	Annotator B
feels like burning needles	heat	heat
stabbing in the lower back	sharp	sharp
throbbing like a drum	rhythmic	pressure
dull constant ache	pressure	pressure
like fire spreading	heat	sharp

Labels shown are the metaphor based layer for clarity.

3. Results

Agreement

Cohen’s Kappa, 0.53 (moderate)
Interpretation, inconsistent boundaries for one category

F1 per class

heat, 0.67
sharp, 0.67
rhythmic, 0.00
pressure, 0.80

Takeaway, the class with very low F1 revealed confusion about its definition. Agreement improved after clarification.

4. What I Changed

Clarified the rhythmic definition and added examples that distinguish pulsing from intermittent ache.
Added a short decision rule, if unsure between rhythmic and pressure, choose pressure unless there is explicit cyclical language.
Updated the shared sheet and ran a quick calibration session.

5. Retest

Agreement

Cohen’s Kappa, 0.81 and stable across a new batch.

F1 per class

rhythmic increased to 0.78. Other classes remained high.

6. 🔧 Tools I Use for Evaluation

I usually export the annotated data as a simple CSV table (one row per item, one column per annotator’s labels), then calculate agreement scores. For small pilot sets I run the calculations in Python using sklearn.metrics — for example cohen_kappa_score for inter-annotator agreement and f1_score to check per-class performance.

For larger or ongoing projects, I use the metrics built directly into the annotation platform. Tools like Prodigy, Label Studio, Doccano or LightTag include agreement reports in the interface, so you can review Cohen’s Kappa or F1 scores without leaving the tool. After checking the metrics, I run short calibration sessions and update the guidelines until agreement improves.

7. Reflection

This mini project shows how I move from disagreement to evidence and then to improvement. Metrics do not replace judgement. They make it easier to focus revision where it matters and to show stakeholders that a guideline is reliable at scale.

See the companion pieces, Annotation in Practice, Two Mini Case Studies and From Conversation Analysis to Data Annotation.

Mini proyecto

Cómo medir la calidad de la anotación, un mini proyecto de evaluación

Cómo utilicé la kappa de Cohen y el F1 para detectar desacuerdos y mejorar una guía de descriptores de dolor.

Sep 2025

1. Contexto

La calidad de la anotación depende de la consistencia entre personas anotadoras. Las métricas lo hacen visible. Realicé una prueba breve sobre un esquema de descriptores de dolor para verificar que las etiquetas se aplicaran de forma similar.

2. Mini conjunto de datos

Construí una lista breve de expresiones de dolor con dos capas compatibles, una capa basada en metáforas y otra clínica. Dos personas anotaron los mismos ítems de forma independiente.

Ítem	Anot. A	Anot. B
se siente como agujas que queman	calor	calor
punzadas en la zona lumbar	punzante	punzante
latidos como un tambor	rítmico	presión
dolor sordo y constante	presión	presión
como fuego que se expande	calor	punzante

Para claridad se muestra la capa basada en metáforas.

3. Resultados

Acuerdo

Kappa de Cohen, 0,53 (moderado)
Lectura, límites poco claros en una categoría

F1 por clase

calor, 0,67
punzante, 0,67
rítmico, 0,00
presión, 0,80

Conclusión, la clase con F1 muy bajo mostró una definición confusa. El acuerdo mejoró después de aclararla.

4. Qué cambié

Aclaré la definición de rítmico y añadí ejemplos que distinguen latido de intermitencia.
Agregué una regla de decisión, si hay duda entre rítmico y presión, elegir presión salvo que haya lenguaje cíclico explícito.
Actualicé la hoja compartida y realicé una calibración breve.

5. Nueva prueba

Acuerdo

Kappa de Cohen, 0,81 y estable en un nuevo lote.

F1 por clase

rítmico subió a 0,78. Las demás clases se mantuvieron altas.

6. 🔧 Herramientas que utilizo para la evaluación

Suelo exportar los datos anotados como una tabla CSV sencilla (una fila por ítem, una columna por etiquetas de cada persona anotadora), y luego calcular las métricas de acuerdo. Para lotes piloto pequeños hago los cálculos en Python con sklearn.metrics — por ejemplo cohen_kappa_score para el acuerdo entre personas anotadoras y f1_score para revisar el rendimiento por clase.

En proyectos más grandes o continuos, utilizo las métricas integradas en la propia plataforma de anotación. Herramientas como Prodigy, Label Studio, Doccano o LightTag incluyen informes de acuerdo en la interfaz, por lo que se pueden revisar los valores de Kappa de Cohen o F1 sin salir de la herramienta. Después de revisar las métricas, realizo sesiones breves de calibración y actualizo las guías hasta mejorar el acuerdo.

7. Reflexión

Este mini proyecto muestra cómo paso de un desacuerdo a evidencia y luego a mejora. Las métricas no sustituyen el juicio. Permiten enfocar la revisión donde importa y mostrar a las partes interesadas que una guía es confiable a escala.

Ver las piezas complementarias, Anotación en la práctica, dos mini estudios de caso y Del análisis de la conversación a la anotación.