Comparison of Neural Networks with Feature Extraction Methods for Depth Map Classification
Comparación de redes neuronales con métodos de extracción de características para la clasificación de mapas de profundidad
En este trabajo se presenta una comparación entre los métodos de extracción de características (método del coseno de Radon, método del contorno de Canny, transformada de Fourier, descriptor SIFT y método de las líneas de Hough) y las redes neuronales convolucionales (CNN propuesta y AlexNet preentrenada). Para la evaluación de estos métodos se utilizaron mapas de profundidad. Los datos probados fueron obtenidos por la cámara Microsoft Kinect (sensor de profundidad IR). Los vectores de características fueron clasificados por la máquina de vectores de apoyo (SVM). Se utilizó la matriz de confusión para la evaluación de los resultados experimentales. La fila de la matriz de confusión representa la clase objetivo de los datos probados y la columna representa la clase predicha. De los resultados experimentales se desprende que los mejores resultados se obtuvieron con la CNN propuesta (97,4%). Por otro lado, la AlexNet preentrenada obtuvo un 93,7%.
1. Introducción
Los gestos de la mano pueden verse desde múltiples puntos de vista. En primer lugar, pueden representarse por el movimiento de la mano. En segundo lugar, pueden representarse por la forma de la mano (posición de los dedos). La forma de la mano viene determinada por la posición de las puntas de los dedos en relación con la palma. Por ejemplo, un dedo recto hacia arriba y los otros doblados en puño es un gesto sencillo para el número uno. A continuación, dos dedos rectos representan el número dos, etc. La cuestión es cómo describir esta forma de la forma más eficaz. Existen varios métodos para hacerlo: por ejemplo, el espacio de color RGB original se transforma en YCbCr y se aplica el método de segmentación de K-means. A continuación, se detecta la orientación de la mano en la imagen calculando una relación simple entre la anchura y la altura de la región de la mano. El pulgar se detecta midiendo los píxeles del lateral de la mano. Además, se calcula el centroide y la posición de la punta del dedo utilizando la distancia euclídea. La comparación de los métodos de extracción de características y el marco de aprendizaje profundo para el reconocimiento de mapas de profundidad se describe en [1] y [2].
Las soluciones basadas en sensores utilizan acelerómetros o giroscopios para detectar los gestos. El movimiento se describe mediante las aceleraciones en una dirección específica en el tiempo. Los smartphones actuales incluyen muchos sensores, entre otros también acelerómetros [3]. Los datos del acelerómetro del smartphone pueden utilizarse para reconocer la actividad general. En [4], los sensores inerciales se utilizaron para la detección del gesto de la mano. En [5] se presenta un método para el reconocimiento del gesto de la mano basado en el contorno de la mano utilizando el sensor Kinect.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:850 kb