Modelos Lineales
Introducción¶
Los Modelos Lineales es un conjunto de teorías y metodologías en los cuales se estudia la asociación lineal de un conjunto de covariables \(x\) con una variable respuesta \(y\). Las covariables pueden ser de tipo continua o categórica, pero la respuesta debe ser continua.
Algunos de los modelos que pueden ser estudiados por los modelos lineales son los siguientes.
- Regresión lineal
- Análisis de Varianza
- Análisis de Covarianza
Los modelos lineales en general pueden expresarse de la siguiente manera
donde \(f\) es una función (lineal), \(\beta\) es un parámetro de interés y \(e\) es un término de error aleatorio, en general se pretende explicar a la variable respuesta por medio de una relación de las variables explicativas y parámetros más un término de error aleatorio. Para fines prácticos, es preferible expresarlos en términos de matrices y vectores.
donde \(\mathbf{y}\) es el vector de observaciones de la variable respuesta, \(\mathbf{X}\) es la matriz diseño que contiene las covariables o variables explicativas, \(\vec{\beta}\) es un vector que contiene los parámetros del modelo y \(\mathbf{e}\) es el vector de errores del modelo.
A continuación se ilustran algunos ejemplos de modelos lineales.
Regresión lineal simple
El siguiente ejemplo fue tomado de Rencher y Schaalje (2008). Se desea conocer si la calificación promedio de las tareas \(x\) incide en la calificación final \(y\) para un grupo de 18 alumnos. Un modelo de regresión lineal puede establecer esta relación de la siguiente manera:
Puede ser expresado en forma matricial de la siguiente manera
Modelo ANOVA balanceado de una vía
Un modelo ANOVA de una vía puede expresarse como un modelo lineal.
donde \(y_{ij}\) es la respuesta de la j-ésima observación que recibió el i-ésimo tratamiento, \(\tau_{ij}\) es el efecto del tratamiento \(i\), \(\mu\) es la media general y \(e_{ij}\) es el error experimental. Este modelo puede expresarse de forma matricial suponiendo que hay \(k\) tratamientos y 2 réplicas:
Como se mostró en los ejemplos anteriores, la matriz diseño juega un papel muy importante ya que dependiendo de su estructura, se podrán obtener estimadores de los parámetros del modelo, por lo que es importante estudiarla con detalle. A continuación se da una definición muy importante para caracterizar a las matrices diseño que son usadas en los modelos lineales
Dependencia lineal
Se dice que un conjunto de vectores \(\mathbf{x}_1,\mathbf{x}_2,\dots,\mathbf{x}_p\) son linealmente dependientes si existen escalares \(c_1,c_2,\dots, c_p\) (no todos ceros) tales que
En otras palabras los vectores \(\mathbf{x}_1,\mathbf{x}_2,\dots,\mathbf{x}_p\) son linealmente independientes si \(c_1 = c_2 = \dots = c_p = 0\).
Rango de una matriz
Sea \(\mathbf{X}\) una matriz de dimensión \(n \times p\). El rango de una matriz es el número de columnas (o renglones) linealmente independientes. Se dice que la matriz \(\mathbf{X}\) es de rango completo si
En el caso que \(R(\mathbf{X}) < \min(n,p)\), se dice que la matriz es de rango incompleto.
En la siguiente sección se estudiará más a detalle los modelos lineales de acuerdo a su rango.
Debido a que es común trabajr con matrices y vectores, se ilustrará de forma breve cómo usar software estadístico para introducir matrices de forma manual. En secciones posteriores se usarán rutinas más completas y eficientes para realizar estas tareas.
Modelo lineal con software
Se usará el ejemplo 6.2 de Rencher y Schaalje (2008) para mostrar cómo introducir los datos en forma matricial
Primero se definirá el vector y
que contiene las calificaciones finales y posteriormente la matriz diseño X
.
1 2 3 |
|
Para poder trabajar con vectores y matrices, se debe cargar la librería numpy
.
1 2 3 4 |
|
En R existen funciones nativas para crear matrices y vectores de forma sencilla.
1 2 3 |
|
En SAS se requiere el uso del módulo SAS/IML con el fin de usar el lenguaje de matrices y vectores.
1 2 3 4 5 |
|
Inferencia¶
Dado el modelo lineal \(\mathbf{y} = \mathbf{X} \vec{\beta} + \mathbf{e}\) donde \(\mathbf{y}\) es el vector de observaciones de la variable respuesta, \(\mathbf{X}\) es la matriz diseño que contiene las covariables o variables explicativas, \(\vec{\beta}\) es un vector que contiene los parámetros del modelo y \(\mathbf{e}\) es el vector de errores del modelo. Se asume que \(E(\mathbf{e}) = \mathbf{0}\) y \(V(\mathbf{e}) = \sigma^2 I\).
Para encontrar el estimador de \(\vec{\beta}\), denotado como \(\hat{\beta}\) mediante el método de Mínmos Cuadrados Ordinarios.
Derivación del método de Mínimos Cuadrados Ordinarios
El estimador de mínimos cuadrados es el vector que minimiza la suma de cuadrados del vector \(\mathbf{y}\) con respecto a \(\mathbf{X} \vec{\beta}\).
\( \begin{align*} S(\vec{\beta}) &= (\mathbf{y}-\mathbf{X} \vec{\beta})^´(\mathbf{y}-\mathbf{X} \vec{\beta})\\ & = \mathbf{y}^´\mathbf{y} - 2 \vec{\beta}^´ \mathbf{X}^´\mathbf{y} + \vec{\beta}^´\mathbf{X}^´\mathbf{X}\vec{\beta} \end{align*} \)
Para hallar el mínimo se deriva con respecto a \(\vec{\beta}\) y se iguala a cero.
Al sistema de ecuaciones resultante \(\mathbf{X}^´\mathbf{X}\vec{\beta} = \mathbf{X}^´\mathbf{y}\) se le conoce como Ecuaciones Normales. Al resolver este sistema de ecuaciones si la inversa \((\mathbf{X}^´\mathbf{X})^{-1}\) existe , se obtiene el estimador de mínimos cuadrados ordinarios, dados por:
Modelos de rango completo¶
Modelos de rango incompleto¶
Referencias¶
- Rencher, Alvin C., y G. Bruce Schaalje. 2008. Linear Models in Statistics. 2nd ed. New Jersey: John Wiley & Sons.