-- Revista

Ing. Investig. Vol 29. No. 3 Diciembre 2009 | Número Ing. Investig. Vol 29. No. 3

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Web text corpus extraction system for linguistic tasks

Este documento es un artículo elaborado por Héctor Fabio Cadavid Rengifo Ingeniero de sistemas, Escuela Colombiana de Ingeniería. M.Sc., en Ingeniería de Sistemas, Universidad Nacional de Colombia. Profesor, Escuela Colombiana de Ingeniería. y Jonatan Gómez Perdomo Ingeniero de sistemas y M.Sc., en Matemáticas, Universidad Nacional de Colombia. Máster y Ph.D., of Sciences en Matemáticas con concentración en Computer Sciences, Universidad de Memphis, Estados Unidos. Profesor asociado, Universidad Nacional de Colombia. para Ingeniería e Investigación Vol 29. Núm. 3.

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Web text corpus extraction system for linguistic tasks

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues-tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.

Introducción

Las líneas de investigación relacionadas con el procesamiento de lenguaje natural, en particular aquellas que estudian los mecanismos para el aprendizaje no supervisado del lenguaje natural, han tomado una relevancia importante en los últimos años por el interés que despierta tanto a nivel teórico como de aplicación. El principio de la pobreza del estímulo, de Chomsky (1986), y su afirmación de que teóricamente un niño no debería ser capaz de aprender la gramática de su lenguaje nativo dado lo limitado de los ejemplos que recibe de la misma –a menos que se cuente con una capacidad innata sólo existente en los humanos–, postulado de la teoría del nativismo, ha sido una motivación desde el punto de vista teórico de la psicología y neurolingüística para proponer modelos de aprendizaje de lenguajes a realizar por una máquina para, por un lado, poder demostrar la validez o invalidez del nativismo (Clark, 2002), y por otro, aproximarse a nuevas hipótesis de cómo se realiza el aprendizaje de los lenguajes (Parekh y Honavar, 2000). Por otra parte, a nivel de aplicación, la problemática que plantea el volumen de información disponible actualmente en Internet, al ser cada vez más complejo encontrar información relevante más allá de la obtenida con la coincidencia exacta de palabras, ha motivado investigaciones como las de la construcción automática de modelos de representación de conocimiento –ontologías– de cuerpos de texto disponibles en la red (Buitelaar et al., 2005; Navigli et al., 2003; Zhou, 2007), como una base para la construcción de la llamada "web semántica".

Este documento es un artículo elaborado por Héctor Fabio Cadavid Rengifo Ingeniero de sistemas, Escuela Colombiana de Ingeniería. M.Sc., en Ingeniería de Sistemas, Universidad Nacional de Colombia. Profesor, Escuela Colombiana de Ingeniería. y Jonatan Gómez Perdomo Ingeniero de sistemas y M.Sc., en Matemáticas, Universidad Nacional de Colombia. Máster y Ph.D., of Sciences en Matemáticas con concentración en Computer Sciences, Universidad de Memphis, Estados Unidos. Profesor asociado, Universidad Nacional de Colombia. para Ingeniería e Investigación Vol 29. Núm. 3.pp-pp 54-60 Publicación de Universidad Nacional de Colombia - UN. Contacto: [email protected]; [email protected]; [email protected]

Recursos

VER FICHA

Formatopdf
Idioma:español
Tamaño:566 kb

de 27

Información de la revista

ISSN:2248-8723
Título:Ing. Investig. Vol 29. No. 3
Número:Ing. Investig. Vol 29. No. 3
Fecha:Diciembre 2009
Consultas:9557

Revista Virtual ProISSN 1900-6241 | Procesos industriales

Dele visibilidad a su trayectoria académica

-- Revista

Ing. Investig. Vol 29. No. 3 Diciembre 2009 | Número Ing. Investig. Vol 29. No. 3

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Web text corpus extraction system for linguistic tasks

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Información de la revista

Recursos

Infografías

Principios de Onda en una cuerda

Introducción a Polaridad de la molécula

Cadena de producción de la carne

Ósmosis inversa

Principios de Adición de Vectores

Matriz de alternativas ambientales

Generalidades de Masas y Resortes

Videos

Aplicaciones de Quantum y proyectos de usuario con D-Wave | Webinar

Reciclaje PET - Cómo abrir un negocio de reciclaje

Nuevas fronteras en biorremediación

Criterios para la selección de Válvulas

Emily Carter. Mecanismos de reducción fotoelectroquímica de dióxido de carbono... - 27 de septiembre de 2013

Webinar: Active learning en aulas para adultos, Parte 1

Aplicaciones de la nanotecnología en el envasado de alimentos

Documentos más descargados

2022-10-07
En transición hacia las energías renovables

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

Revista Virtual ProISSN 1900-6241 | Procesos industriales

Dele visibilidad a su trayectoria académica

-- Revista

Ing. Investig. Vol 29. No. 3 Diciembre 2009 | Número Ing. Investig. Vol 29. No. 3

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Web text corpus extraction system for linguistic tasks

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

Información de la revista

Recursos

Infografías

Principios de Onda en una cuerda

Introducción a Polaridad de la molécula

Cadena de producción de la carne

Ósmosis inversa

Principios de Adición de Vectores

Matriz de alternativas ambientales

Generalidades de Masas y Resortes

Videos

Aplicaciones de Quantum y proyectos de usuario con D-Wave | Webinar

Reciclaje PET - Cómo abrir un negocio de reciclaje

Nuevas fronteras en biorremediación

Criterios para la selección de Válvulas

Emily Carter. Mecanismos de reducción fotoelectroquímica de dióxido de carbono... - 27 de septiembre de 2013

Webinar: Active learning en aulas para adultos, Parte 1

Aplicaciones de la nanotecnología en el envasado de alimentos

Documentos más descargados

2022-10-07En transición hacia las energías renovables

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2022-10-07
En transición hacia las energías renovables