La representatividad es una característica importante de la calidad de los datos en los procesos de la ciencia de datos; se dice que una muestra de datos es representativa cuando refleja un grupo más amplio con la mayor exactitud posible. Tener bajos índices de representatividad en los datos puede conducir a la generación de modelos sesgados. Por ello, este estudio muestra los elementos que componen un nuevo modelo para medir la representatividad utilizando un elemento matemático de prueba de objetos de matrices de cobertura denominado «Matriz P». Para probar el modelo, se propuso un experimento en el que se toma un conjunto de datos, se divide en subconjuntos de datos de entrenamiento y de prueba utilizando dos estrategias de muestreo: Aleatorio y Estratificado, y se comparan los valores de representatividad. Si la división de los datos es adecuada, las dos estrategias de muestreo deberían presentar índices de representatividad similares. El modelo se implementó en un prototipo de software que utiliza las tecnologías Python (para el procesamiento de datos) y Vue (para la visualización de datos), esta versión del modelo sólo permite analizar conjuntos de datos binarios (por ahora). Para probar el modelo, se ajustó el conjunto de datos «Wines» (UC Irvine Machine Learning Repository). La conclusión es que ambas estrategias de muestreo generan resultados de representatividad similares para este conjunto de datos, aunque este resultado es predecible, está claro que una representatividad adecuada de los datos es importante a la hora de generar los subconjuntos de datos de prueba y entrenamiento. Por lo tanto, como trabajo futuro planeamos ampliar el modelo a datos categóricos y explorar conjuntos de datos más complejos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
El proceso de disolución del combustible carbonoso sólido en trozos (SLCF) en el convertidor de oxígeno - modelización física
Artículos:
Diseño neuronal adaptativo activado por eventos para el nivel de acero fundido en un proceso de fundición en banda
Artículos:
Aspectos económicos y ambientales en la modelización de la demanda mensual de agua en Białystok: un estudio de caso
Artículos:
Optimización de los parámetros del proceso de embutición profunda de acero inoxidable 304
Artículos:
Efecto de los parámetros del proceso en la calidad de la cara frontal del eje laminado en cruz (CWR) de la aleación de titanio Ti6Al4V
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.