sábado, 14 de junio de 2008

En definitiva, ¿qué era eso del ANOVA?

La palabra ANOVA viene de "Análisis de Varianza" (con "o" de "of" en inglés). Yo creo que es mejor decir primero lo que no es el ANOVA: no es algo que sirva para decir si dos números son distintos (uno mayor que el otro). Porque eso ya lo sabemos. Sabemos que 3,00002 euros es mayor que 3,00001 euros (aunque normalmente nos importe poco) pero no hace falta ningún ANOVA, sabemos que un número es mayor que el otro.

Para lo que sí sirve es para asociar una probabilidad de error a una toma de decisión acerca de si dos grupos de puntuaciones son diferentes o no. Y la verdad es que no sirve para mucho más (por eso es algo de lo que no se suele hablar en el día a día). No es muy normal que calculemos un ANOVA antes de comprar un kilo de naranjas, vaya.

De hecho, cada vez que tomamos una decisión, no suele preocuparnos mucho si nos equivocamos o no. Yo creo que la selección española no va a ganar la Eurocopa, pero no me va la vida en ello, la verdad sea dicha (ni si quiera me apuesto una cerveza).

Sin embargo, el ANOVA, nos permite estimar una probabilidad de error. Si lanzo una moneda al aire, sé que la probabilidad de que salga cara es 0,5. Lo sé, porque hay una opción a favor y dos posibles, y uno dividido por dos es 0,5. Si lanzo un dado, la probabilidad de que me salga el seis es 0,17, porque hay una opción a favor (que me saga el seis) y seis posibles; y porque uno dividido por seis da cero coma uno seis seis seis seis seis... ¿Cual es la probabilidad de euqivocarse al decir que la selección española no ganará la Eurocopa? Ni idea, la verdad.

Pero el ANOVA, lo que nos permite es asociar la probabilidad de equivocarnos al tomar una decisión acerca de lo diferente que son dos grupos de puntuaciones. Es decir, la cosa es más sencilla que con lo de la selección. Lo que hace el ANOVA es comparar dos grupos de puntuaciones conocidas. Por ejemplo, si comparáramos las estaturas de los jugadores de la selección española con las de los jugadores de la selección sueca, podríamos saber qué probabilidad de equivocarnos asumimos al decir que los jugadores suecos son más altos que los espñoles.

Para verlo más claro, quizás sea mejor pensar en un ejemplo más cotidiano. Imaginemos que un profesor ha hecho dos modelos de examen para evitar que los alumnos de su clase se copien. En principio, el uso de los dos modelos de examen obedece a que la evaluación mejore, ya que de otro modo los alumnos se poddrían copiar entre sí, y las puntuaciones de la evaluación no corresponderían con las del conocimiento real de los alumnos. Pero los alumnos también podrían considerar que uno de los modelos de examen es más difícil que el otro, y por tanto, la mitad de los alumnos ha tenido una evaluación SIGNIFICATIVAMENTE distinta a la otra mitad porque el modelo de examen era más sencillo. A esta decisión de los alumnos, podría asociarse una probabilidad de error, ya que hay dos grupos de puntuaciones que podemos comparar (en realidad, para calcular un ANOVA es necesario que se den una serie de supuestos, lo cual es muy importante, pero no vamos a entrar ahora en estos detalles).

Si la profesora pone las notas de forma pública, y los alumnos son capaces de distinguir entre las que corresponden con un modelo de examen y las que corresponden con el otro, los propios alumnos podrían calcular un ANOVA y decirle a la profesora que un modelo de examen era más difícil que el otro con una probabilidad de error determinada (al tomar esa decisión).

Es posible hacer algunos cálculos estadísticos en Internet. Hay una serie de calculadoras en una página web del Vassar College, de Nueva York, Estados Unidos.

El primer problema que nos encontramos es que hay varios tipos de ANOVAs, y tenemos que decidir con cuál de ellos corresponde el nuestro.

En el caso de los dos modelos de examen la cosa es sencilla: el anova de un factor ("one-way" en inglés) es el que tenemos que elegir, ya que sólo hay una variable: haber hecho un modelo de examen o el otro.

En el número de muestras ("samples") tendremos que poner 2 (una muestra es el grupo de alumnos que hizo un modelo de examen y la otra el grupo de alumnos que hizo el otro modelo). Las dos muestras son independientes, ya que se trata de personas distintas haciendo exámenes distintos. Serían dependientes si, por ejemplo, la misma persona hubiera hecho primero un modelo (una puntuación) y luego el otro (otra puntuación), pero no es nuestro caso. En definitiva, habría que poner 2 en en "Number of samples in analysis" y 2 en la casilla de "independent samples".

Como indica la calculadora, si no sabemos nada sobre "unweighted" or "weighted" mejor pulsar la segunda opción.

Y ya sólo nos queda meter las notas de un modelo de examen en la casilla donde dice "Sample 1" y las notas del otro modelo de examen donde dice "Sample 2". Las puntuaciones van colocadas unas encimas de otras (es decir, hay que darle a la tecla de retorno cada vez que se mete una).

Yo lo he calculado con una serie de puntuaciones imaginarias. Para la muestra 1 ("Sample 1") he usado estas:
6
7
8
9
5
6
7
8
9

Y para la muestra 2 ("Sample 2") he usado estas:
3
4
5
2
7
3
5
2

Al pulsar en "calculate" he obtenido los siguientes resultados. Es mejor que el que esté leyendo este texto lo haga en una ventana distinta para verlo por sí mismo. Me dice que "N" es igual a 9 en la muestra 1 e igual a 8 en la muestra 2. Esto no es más que la cantidad de puntuaciones (no es necesario que haya la misma cantidad de alumnos en las dos muestras, al ser independientes). También me dice el promedio de puntuaciones en la casilla "Mean" (7,22 para la muestra 1 y 3,88 para la muestra 2). En la siguiente tabla aparecen los resultados del ANOVA en sí. Nos interesa saber que los grados de libertad ("df" en inglés) son igual a 1 (solo hay una fuente de variación, o un modelo de examen o el otro). También nos interesa saber que el valor de F es igual a 19,54 y, lo más importante de todo, que la probabilidad de equivocarnos asociada a nuestra decisión de "las puntuaciones son diferentes" es igual a 0,000496 con estos datos.

Teniendo en cuenta que la probabilidad asociada al acierto al lanzar una moneda es 0,5; que la probabilidad asociada a acertar al lanzar un dado es 0,17; pues parece que la probabilidad de que nos equivoquemos es muy baja en este caso.

La profesora podría decirnos que no es igual a cero. Tiene razón, pero nosotros podríamos decirle que se aproxima demasiado a cero como para asumir que un examen no es más difícil que el otro.

Normalmente la decisión se considera suficientemente válida cuando el valor de "p" (también conocido como significatividad) es menor que 0,05. Básicamente, significa que de 100 situaciones posibles, asumimos que 95 coinciden con lo que pensamos. Es como si tuviéramos un dado con 100 caras, 95 de las caras tuvieran un seis, y nosotros dijéramos que va a salir un 6. La probabilidad de equivocarse es 0,05. Pero en el ejemplo que he puesto la probabilidad de equivocarse es mucho más pequeña: p = 0,000496. Por tanto, podríamos decir que la probabilidad es menor que 0,01 (más bajo aún que el valor de 0,05 que suele considerarse suficientemente bajo).

En definitiva, podríamos decirle a la profesora lo siguiente:

Estimada profesora, las puntuaciones de los 2 modelos de examen difieren significativamente (p<0,01; F=19,54; g.l.=1). Por tanto, podemos concluir que la mitad de los alumnos se enfrentaron a un modelo de examen más sencillo que la otra mitad de los alumnos.