Novel feature selection method based on stochastic methods coupled to support vector machines using H- NMR data (data of olive and hazelnut oils)
Método de selección de variables basados en métodos estocásticos acoplados a Maquinas de soporte vectorial usando datos de H-NMR (data de aceite de oliva y avellana)
Uno de los principales inconvenientes que se presentan en el análisis y procesamiento de la información, es que en la representación de la información normalmente se encuentra un alto número de muestras, cada una de ellas con cientos de variables, en muchos casos con información irrelevante y ruidosa. Por lo que se hace necesario reducir la cantidad de variables. En este artículo se describe una novedosa técnica de selección de variables, inspirada en métodos estocásticos y diseñados para trabajar con máquinas de soporte vectorial (SVM). Los resultados son demostrados usando un conjunto de datos de aplicaciones alimentarias, específicamente, en la detección de la adulteración del aceite de oliva (más costosa) con aceite de avellana (barata). Para el análisis de las muestras se usó la técnica de espectroscopia RMN-1H (Resonancia magnética nuclear de protones). Los resultados demostraron que es posible reducir el número de variables sin afectar los resultados de clasificación.
Introducción
El uso de características tanto estáticas como dinámicas de la respuesta de la tecnología H-NMR ha dado lugar a una explosión de las variables que pueden introducirse en el reconocimiento de patrones (PARC). Sin embargo, el uso de un elevado número de variables en la entrada de un sistema PARC no garantiza necesariamente un mejor rendimiento. De hecho, el uso de variables ruidosas o irrelevantes en la entrada de un sistema PARC puede poner en peligro su fase de entrenamiento y dar lugar a un menor rendimiento durante la fase de reconocimiento. Por lo tanto, la idea detrás de la selección de variables es deshacerse de las características de respuesta que son redundantes, ruidosas o irrelevantes para las tareas de clasificación/cuantificación previstas, de tal manera que la dimensionalidad de los datos pueda reducirse sin pérdida de información útil. De este modo, el sistema PARC podría entrenarse más rápidamente y tendría una buena generalización. Además, se podría idear una configuración óptima de la información utilizando características relevantes seleccionadas por el algoritmo de selección de variables. Se han descrito diferentes estrategias para la reducción de la dimensionalidad, pero se ha informado muy poco sobre la selección de variables para la información H-NMR. Estas, básicamente, consisten en elegir directamente entre las variables disponibles o en computar nuevas variables llamadas factores (por ejemplo, realizando un análisis de componentes principales o un análisis discriminante lineal, etc.).
Este documento es un artículo preparado por Oscar Eduardo Gualdron, Cristhian Manuel Duran, quiénes pertenecen al Multisensory systems Research group de la Universidad de Pamplona, Colombia, y Claudia Isaza, quién pertenece al SISTEMIC Research group. Department of Electronic Engineering de la Universidad de Pamplona, Colombia, artículo publicado en la Revista ION, revista que publica artículos inéditos, originales y de revisión, resultado de actividades científicas y tecnológicas en los campos de la ciencia química e ingeniería, en español, inglés y portugués. Con interés particular en las áreas de: conversión y almacenamiento de energía, bioprocesos, diseño de procesos químicos, catálisis, electrocatálisis, tecnologías verdes, ciencia de la interfaz, ingeniería electroquímica y corrosión, entre otros. Correo de contacto: [email protected].
En: Revista ION.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:1656 kb