A Distributed and Scalable Machine Learning Approach for Big Data
Un enfoque distribuido y escalable de aprendizaje automático para datos masivos
En esta investigación se propone un enfoque novedoso de descomposición y combinación de matrices con el algoritmo PBCD (parallel block coordinate descent) para efectuar el esfuerzo computacional distribuido para varios de los más populares algoritmos de aprendizaje automático, tales como máquinas de vectores de soporte y la regresión logística. Tras aplicar dicho enfoque a los algoritmos mencionados, estos se pueden usar para resolver problemas que involucran datos masivos.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:845 kb
PivotalR: A Package for Machine Learning on Big Data
PivotalR: un paquete para aprendizaje automático en datos masivos
En este artículo se introduce el paquete PivotalR, el cual brinda una interfaz tipo R con API orientada a datos para usuarios R para acceder a datos masivos almacenados en bases de datos distributivas o sistemas de archivos distributivos Hadoop. PivotalR pone más énfasis en el aprendizaje automático al proporcionar un recubrimiento (wrapper) para MADlib, la cual es una biblioteca de código abierto de algoritmos escalables de aprendizaje automático.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:376 kb