Mínimos cuadrados: regresión lineal
Profesor: Arturo Hidalgo
Deducción y diagrama de flujo
La técnica de mínimos cuadrados es un método de cálculo científico que permite obtener una función continua que, en base a unos criterios que se irán viendo, represente la mejor aproximación de una serie de datos.
En la primera clase vimos el caso específico en el que la función era una recta.
En estos casos siempre partimos de una serie de puntos con coordenadas en x (durante la deducción las llamaremos S) e y. A continuación iremos viendo en orden y con imágenes los pasos a seguir:
1) El primer paso es seleccionar un punto cualquiera por sus coordenadas: Pj= (Sj,yj) y suponer que tenemos una recta genérica: r(x)=a+bx.
2) El siguiente paso es establecer una distancia entre el punto y la recta. En este caso, recibirá el nombre de dj y representará la distancia entre la coordenada yj y el valor de la recta en Sj, es decir r(Sj). Matemáticamente esto se expresa de la siguiente forma:
3) Ahora que sabemos la expresión de la distancia, recordemos que la técnica se llama mínimos cuadrados, lo que nos puede dar una pista del siguiente paso: elevamos al cuadrado la distancia, que en la gráfica se podría ver como un cuadrado de lado=dj:
4) La pista para el siguiente paso también nos la da el nombre de la técnica, ya que recordemos que nos falta la primera parte: mínimos cuadrados. Es decir, con esta técnica minimizamos la suma de las áreas de los cuadrados generados para cada punto (no la distancia).
Para obtener el mínimo, debemos optimizar la función. Esto se consigue hallando los puntos de nuestra función donde la derivada (pendiente de la recta tangente) sea igual a cero.
En nuestro caso, nuestra función depende de dos variables: a y b (ya que el resto de elementos son conocidos), por tanto, se deberá optimizar para a y para b mediante derivadas parciales:
5) Como resultado obtenemos dos ecuaciones con dos incógnitas (a y b), que nos darían la ecuación de la recta que buscamos, y ahora solo queda resolver el sistema.
Para facilitar la visualización, establecemos un cambio de variables con los sumatorios, como se indica a continuación, y procedemos a resolver, en este caso, mediante Cramer:
Nuestra recta por tanto es:
Teniendo estas expresiones de a y b, podemos hallar sus valores mediante un algoritmo (recomenda-mos intentarlo antes de ver la solución):
Ejercicio de clase
Dada una serie de puntos, hallar la recta de regresión.
1) Para que los datos que necesitamos sean fácilmente accesibles, los organizamos en una tabla como esta:
2) Para una recta siempre necesitaremos estos datos, por los que solo queda aplicar las expresiones que se han hallado en la deducción, obteniendo r(x)=-0,711+1,82x.