El artículo propone la arquitectura de un sistema que usa valores previamente aprendidos para reordenar resultados de búsquedas en bases de datos no estructuradas al construir diccionarios especializados. Un recurso común en la construcción de diccionarios, las bases de datos no estructuradas han sido útiles ya que proveen información sobre unidades léxicas, tal como la frecuencia o ejemplos de uso de las mismas. Sin embargo, en la construcción de diccionarios especializados, cuya selección de elementos léxicos no depende de la frecuencia, el uso de estas bases de datos queda restringido a la simple ejemplificación. Incluso en esta tarea, la información de las bases de datos no estructuradas puede no ser muy útil si se buscan unidades léxicas con un uso especializado pero con varios otros significados que producen largas listas de resultados. Ante este problema, estas listas pueden ser ponderadas usando un modelo de aprendizaje automático supervisado que se apoye de los resultados previamente útiles. La recolección de un vasto conjunto de datos de alta calidad para este sistema de ponderación es reportada aquí. Finalmente, se propone la arquitectura de tal sistema, el cual representa una herramienta sin precedentes en la lexicografía especializada.
I. INTRODUCCIÓN
El objetivo final de este artículo es describir una ruta para construir un sistema que reorganice los resultados arrojados por las bases de datos no estructuradas utilizando la información sobre los aciertos previamente útiles. El contexto en el que se propone un sistema de este tipo es la construcción de un diccionario, concretamente de un diccionario de lenguaje subestándar. Este tipo de diccionario pretende describir el vocabulario de un dominio especializado que abarca diversos usos del lenguaje, como las interacciones coloquiales o relajadas, la comunicación en contextos populares o de bajo nivel socioeconómico y las formas de expresión estigmatizadas o groseras [1, 2]. Dada la diversidad de situaciones en las que se utiliza el lenguaje subestándar, el uso de frecuencias u otra información distributiva simple no es muy útil para identificar y trabajar con este tipo de vocabulario en grandes bases de datos no estructuradas. Por lo tanto, para maximizar el beneficio del uso de bases de datos no estructuradas, también conocidas como bases de datos textuales [3] o corpus lingüísticos [4], es necesario un enfoque novedoso. El enfoque aquí propuesto se deriva de dos pasos tradicionales en la elaboración de diccionarios, que incluyen la recopilación de todos los trabajos lexicográficos anteriores relacionados y la búsqueda de nuevos materiales para ofrecer un valor añadido en el diccionario derivado de ellos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Impact of Resource Blocks Allocation Strategies on Downlink Interference and SIR Distributions in LTE Networks: Un enfoque de geometría estocástica
Artículo:
Detección de enfermedades de plantas basada en imágenes: Desde el aprendizaje automático clásico hasta el viaje del aprendizaje profundo
Artículo:
Predicción del APT para la comprensión de situaciones cibernéticas en escenarios IoT habilitados para 5G basados en el aprendizaje federado diferencialmente privado
Artículo:
Análisis e Implementación de un Nuevo Sistema Hipercaótico de Memristor de Conmutación de Desplazamiento y Aplicación en Comunicación Segura
Artículo:
Criptoanálisis de Compact-LWE y cifrado ligero de clave pública relacionado
Artículo:
Medicina de la conservación ¿una disciplina para médicos veterinarios?
Libro:
Tratamiento de aguas para consumo humano : plantas de filtración rápida. Manual II : diseño de plantas de tecnología apropiada
Artículo:
Configuración de los valores de María, antes y después de la violación, en Satanás de Mario Mendoza
Showroom:
Panel fotovoltaico: Dimensionamiento y funcionamiento