Variancia: Glosario

Aquí encontrará un conjunto de conceptos relacionados con el tema de estudio. Solamente debe dar clic en la pestaña para desplegar el contenido.

Desviación

Para un conjunto de datos, una desviación representa la diferencia de un dato respecto al promedio. Puede ser negativa, positiva o nula.

Desviación estándar

Para un conjunto de datos, una la desviación estándar es una medida o indicador de variabilidad que se determina a partir de su variancia :

Diagrama de cajas

Un diagrama de cajas, también llamado gráfico de bigotes, consiste en una representación estadística en la cual se incluyen las principales medidas de orden: mínimo, máximo, cuartiles y mediana. Cada caja debe estar en escala según el valor de la medida estadística en el eje x. Entre el primer cuartil y el tercer cuartil se dibuja una caja tal como se muestra. Esta caja se une con el mínimo y el máximo por medio de segmentos. Finalmente la mediana se representa con una línea que divide la caja.

Recorrido

Corresponde a la diferencia el dato máximo y el mínimo:

Recorrido = Máximo – Mínimo

Se interpreta como la mayor diferencia entre dos dos datos del conjunto total, es decir muestra el rango máximo de variación de todo el grupo de datos.

Recorrido intercuartílico

Se determina por la diferencia entre el tercer cuartil con el primer cuartil:

Recorrido intercuartílico = C_{3} – C_{1}

Se dice que el recorrido intercuartílico o rango intercuartílico incluye el 50% de los datos centrales de la distribución.

Variancia

Para un conjunto de datos, la variancia es una medida o indicador estadístico que se utiliza para medir la variabilidad de los datos. Se construye a partir de las desviaciones de los datos respecto al promedio (elevadas al cuadrado) tal como se muestra:

Puede notarse la fórmula de cálculo varía cuando los datos corresponden a toda la población o simplemente a una muestra, esta diferencias obedecen a principios teóricos que no abordan acá.  La variabilidad en los datos puede visualizarse con una mayor homogeneidad o heterogeneidad en las distribución de los datos. Observemos la siguiente imagen:

La distribución de datos representada en rojo tiene mayor variancia que la distribución representada en azul.