Distribución t de Student
$T \sim t(\nu)$
Origen matemático de la distribución t: La distribución t de Student surge de la combinación de una distribución normal estándar y una distribución chi-cuadrado. Si tenemos una variable aleatoria $Z$ con distribución normal estándar ($Z \sim N(0,1)$) y una variable $V$ con distribución chi-cuadrado con $\nu$ grados de libertad ($V \sim \chi^2(\nu)$), y ambas son independientes, entonces el cociente:
$$T = \frac{Z}{\sqrt{V/\nu}}$$
sigue una distribución t con $\nu$ grados de libertad. Esta relación es fundamental en estadística, ya que explica cómo la distribución t aparece naturalmente al estandarizar la media muestral cuando la varianza poblacional es desconocida y se estima a partir de los datos.
Nota: La función generadora de momentos no está definida para la distribución t de Student, lo que significa que no existe una expresión cerrada para $M_T(t) = E[e^{tT}]$.
- • Pruebas t para una muestra: $t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$
- • Pruebas t para dos muestras: $t = \frac{\bar{X}_1 - \bar{X}_2}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$
- • Intervalos de confianza: $\bar{X} \pm t_{\alpha/2, \nu} \cdot \frac{s}{\sqrt{n}}$
- • Regresión lineal: pruebas de hipótesis sobre coeficientes
- • Análisis de diseños experimentales con varianza desconocida
En estadística, los grados de libertad ($\nu$) representan el número de valores independientes en un cálculo estadístico que pueden variar libremente. En el contexto de la distribución t de Student:
Cuando estimamos la varianza muestral $s^2$ a partir de $n$ observaciones:
$$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2$$
Los grados de libertad son $\nu = n - 1$ porque:
- Calculamos la media muestral $\bar{X}$, que impone una restricción lineal sobre los datos
- Solo $n - 1$ desviaciones $(X_i - \bar{X})$ son independientes
- La última desviación queda determinada por las anteriores
Interpretación intuitiva: Los grados de libertad representan la "cantidad de información" disponible para estimar parámetros. A mayor $\nu$, más precisa es la estimación de la varianza y más se aproxima la distribución t a la normal.
En la distribución t, los grados de libertad controlan el peso de las colas:
- Con $\nu$ pequeños ($\nu < 30$): Colas más pesadas, mayor probabilidad de valores extremos
- Con $\nu$ grandes ($\nu > 30$): La distribución se aproxima a la normal estándar $\mathcal{N}(0,1)$
| Propiedad | Distribución t de Student | Distribución Normal |
|---|---|---|
| Forma | Campana simétrica con colas más pesadas | Campana simétrica |
| Media | $0$ (para $\nu > 1$) | $\mu$ (cualquier valor real) |
| Varianza | $\frac{\nu}{\nu-2}$ (para $\nu > 2$) | $\sigma^2$ |
| Colas | Más pesadas, mayor probabilidad en extremos | Menos pesadas, decae más rápido |
| Uso | Muestras pequeñas, varianza desconocida | Muestras grandes, varianza conocida |
| Convergencia | Converge a Normal cuando $\nu \to \infty$ | No aplica |
Desarrollada por William Sealy Gosset (bajo el seudónimo "Student") mientras trabajaba en la cervecería Guinness, esta distribución emerge al estimar medias poblacionales con varianza desconocida en muestras pequeñas. Sus colas pesadas reflejan la incertidumbre adicional introducida al estimar la varianza a partir de la muestra. Es fundamental en la estadística inferencial, especialmente en pruebas de hipótesis y construcción de intervalos de confianza para muestras pequeñas.
• Mayor robustez ante valores extremos que la normal
• Proporciona intervalos de confianza apropiados para muestras pequeñas
• Fundamental en pruebas t y regresión lineal
• Convergencia conocida hacia la Normal cuando $\nu \to \infty$
• Forma de campana simétrica pero con colas más pesadas
• La estimación de grados de libertad puede ser compleja en algunos modelos
• Menor eficiencia que la Normal cuando la varianza es conocida
• Mayor complejidad computacional para calcular probabilidades
• No es adecuada para datos muy asimétricos o con outliers extremos