ESTADÍSTICA BIDIMENSIONAL

Conceptos Básicos

¿Qué es la Estadística Bidimensional?

Rama de la estadística que se ocupa del estudio simultáneo de dos caracteres (X,YX, Y) en los individuos de una población. Permite analizar si existe relación entre ambas variables.

Frecuencia Conjunta (fijf_{ij})

Es el número de individuos que presentan simultáneamente el valor xix_i de la primera variable y el valor yjy_j de la segunda. La suma de todas las frecuencias conjuntas es el total de la población NN.

Distribuciones

Distribuciones Marginales

Analiza el comportamiento de una sola variable ignorando la otra. Se obtienen sumando las frecuencias conjuntas por filas (XX) o por columnas (YY).
  • Marginal de XX: Distribución unidimensional de la variable XX.
  • Marginal de YY: Distribución unidimensional de la variable YY.

Distribuciones Condicionadas

Es la distribución de una variable (por ejemplo YY) considerando solo los individuos que toman un valor concreto en la otra variable (por ejemplo X=xiX = x_i). Se estudia una fila o columna específica de la tabla de doble entrada.

Covarianza

Covarianza (σxy\sigma_{xy})

Fórmula:
σxy=fijxiyjNxˉyˉ\sigma_{xy} = \frac{\sum f_{ij} x_i y_j}{N} - \bar{x}\bar{y}
Es la media del producto de las desviaciones de cada variable respecto a su media. Indica si hay relación lineal y su sentido.
  • σxy>0\sigma_{xy} > 0: Correlación positiva (directa).
  • σxy<0\sigma_{xy} < 0: Correlación negativa (inversa).
  • σxy=0\sigma_{xy} = 0: No hay correlación (incorrelación).

Correlación

Tipos de Correlación

La correlación indicia la relación o dependencia entre las variables. Puede clasificarse de varias formas:
  • Funcional: Existe una relación exacta, y=f(x)y = f(x).
  • Aleatoria: Existe relación estadística pero no exacta.
  • Nula: No hay relación entre las variables.
  • Directa (Positiva): Al aumentar una variable, aumenta la otra.
  • Inversa (Negativa): Al aumentar una variable, la otra disminuye.
  • Fuerte: La dependencia es alta (los puntos están muy cerca de la recta de regresión).
  • Débil: La dependencia es baja (la nube de puntos es muy dispersa).

Coeficiente de Correlación Lineal (rr)

Fórmula:
r=σxyσxσyr = \frac{\sigma_{xy}}{\sigma_x \cdot \sigma_y}
Mide el grado de asociación lineal y el sentido de la correlación. Es adimensional y varía entre 1-1 y 11.
  • r>0r > 0: Correlación directa.
  • r<0r < 0: Correlación inversa.
  • r1|r| \approx 1: Correlación fuerte (puntos alineados).
  • r0r \approx 0: Correlación débil (nube de puntos redonda).

Regresión Lineal

Rectas de Regresión

Son las rectas que mejor se ajustan a la nube de puntos mediante el método de mínimos cuadrados. Permiten hacer estimaciones.

Recta de Regresión de Y sobre X

Fórmula:
yyˉ=σxyσx2(xxˉ)y - \bar{y} = \frac{\sigma_{xy}}{\sigma_x^2} (x - \bar{x})
Minimiza las distancias verticales. Se utiliza para estimar el valor de YY suponiendo conocido un valor de XX. El término σxyσx2\frac{\sigma_{xy}}{\sigma_x^2} es la pendiente de la recta.

Recta de Regresión de X sobre Y

Fórmula:
xxˉ=σxyσy2(yyˉ)x - \bar{x} = \frac{\sigma_{xy}}{\sigma_y^2} (y - \bar{y})
Minimiza las distancias horizontales. Se utiliza para estimar el valor de XX suponiendo conocido un valor de YY. No es la misma recta que la anterior (salvo dependencia funcional).