Máquinas de Soporte Vectorial

 

Máquina de soporte vectorial(SVM)

(Extraido de: [1] "Python Machine Learning - Capitulo 3")

Introducción

El método de clasificación-regresión Máquinas de Vector Soporte (Vector Support Machines, SVMs) fue desarrollado en la década de los 90, dentro de campo de la ciencia computacional. Si bien  originariamente se desarrolló como un método de clasificación binaria, su aplicación se ha extendido a problemas de clasificación múltiple y regresión. SVMs ha resultado ser uno de los mejores clasificadores para un amplio abanico de situaciones, por lo que se considera uno de los referentes dentro del ámbito de aprendizaje estadístico y machine learning.

Las Máquinas de Vector Soporte se fundamentan en el Maximal Margin Classifier, que a su vez, se basa en el concepto de hiperplano. A lo largo de este ensayo se introducen por orden cada uno de estos conceptos. Comprender los fundamentos de las SVMs requiere de conocimientos sólidos en álgebra lineal.

Características 

  • Ofrece una precisión muy alta en comparación con otros clasificadores como la Regresión Logística y los Árboles de Decisión.
  • Se utiliza una variedad de aplicaciones tales como detección de rostros, detección de intrusos, clasificación de correos electrónicos, artículos de noticias y páginas web, entre otros.

La máquina de soporte vectorial

Es un algoritmo de aprendizaje potente y ampliamente utilizado que puede considerarse una extensión del perceptrón, usando el algoritmo del perceptrón, minimizamos los errores de clasificación. Pero, en las SVM nuestro objetivo de optimización es maximizar el margen.



Vectores de Soporte: son los puntos de datos más cercanos al hiperplano.

Hiperplano: Es un plano de decisión que separa entre un conjunto de objetos.

Margen: Es un espacio entre las dos líneas en los puntos más cercanos de la clase.






¿Qué es el margen?

El margen se define como la distancia entre hiperplano de separación (límite de decisión) y las muestras de entrenamiento que están más cerca de este hiperplano, que son los llamados vectores de soporte.


Intuición de margen máximo

  • La razón de tener límites de decisión con márgenes grandes es que tienden a tener menor error de generalización.
  • Los modelos con márgenes pequeños son más propensos al sobreajuste.

Abordando el caso no linealmente separable mediante variables de holgura

La variable de holgura ξ . Fue introducida por Vladimir Vapnik en 1995 y dio lugar a la llamada clasificación de margen suave.

¿Por qué introducir una variable de holgura?

La motivación para introducir la variable de holgura ξ fue que las restricciones lineales deben flexibilizarse para los datos que no son linealmente separables, para de esta forma permitir la convergencia de la optimización en presencia de clasificaciones erróneas bajo la penalización de costes adecuada.
La variable de holgura que presenta valores positivos se añade a las restricciones lineales:




Parámetro C:
Mediante C, podemos controlar la penalización por clasificación errónea. Los valores grandes de C corresponden a grandes penalizaciones por error como vemos en el siguiente gráfico:


Mientras que si elegimos valores más pequeños para C estaríamos siendo menos estrictos con los casos de clasificación errónea, como vemos en el siguiente gráfico:






Podemos entonces utilizar el parámetro C para controlar la amplitud del margen y, por lo tanto, afinar la compensación entre sesgo y varianza. Este concepto está relacionado con la regularización, de la que hablamos anteriormente en el contexto de la regresión regularizada, donde el aumento del valor de C aumenta el sesgo y disminuye la varianza del modelo.

Regresión logística frente a SVM

En tareas prácticas de clasificación, la regresión logística lineal y las SVM lineal suelen dar resultados muy similares.
• Regresión logística: intenta maximizar las probabilidades condicionales de los datos de entrenamiento, lo que la hace más propensa a los valores atípicos que las SVM. Por otro lado, la regresión logística tiene la ventaja de que es un modelo más sencillo que puede ser implementado más fácilmente. Además, los modelos de regresión logística pueden actualizarse fácilmente, lo que resulta atractivo cuando se trabaja con datos en flujo
•  SVM (Máquinas de soporte vectorial): se preocupan sobre todo de los puntos que están más cerca del límite de decisión (vectores de soporte).

Bibliografía:

[1]    Raschka, S. (2015). Python Machine Learning. Pensilvania : Packt Publishing


Comentarios