Biblioteca122.479 documentos en línea

Ficha técnica

308 | 3

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículos

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticasWeb text corpus extraction system for linguistic tasks

Resumen

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues-tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.

Introducción

Las líneas de investigación relacionadas con el procesamiento de lenguaje natural, en particular aquellas que estudian los mecanismos para el aprendizaje no supervisado del lenguaje natural, han tomado una relevancia importante en los últimos años por el interés que despierta tanto a nivel teórico como de aplicación. El principio de la pobreza del estímulo, de Chomsky (1986), y su afirmación de que teóricamente un niño no debería ser capaz de aprender la gramática de su lenguaje nativo dado lo limitado de los ejemplos que recibe de la misma –a menos que se cuente con una capacidad innata sólo existente en los humanos–, postulado de la teoría del nativismo, ha sido una motivación desde el punto de vista teórico de la psicología y neurolingüística para proponer modelos de aprendizaje de lenguajes a realizar por una máquina para, por un lado, poder demostrar la validez o invalidez del nativismo (Clark, 2002), y por otro, aproximarse a nuevas hipótesis de cómo se realiza el aprendizaje de los lenguajes (Parekh y Honavar, 2000). Por otra parte, a nivel de aplicación, la problemática que plantea el volumen de información disponible actualmente en Internet, al ser cada vez más complejo encontrar información relevante más allá de la obtenida con la coincidencia exacta de palabras, ha motivado investigaciones como las de la construcción automática de modelos de representación de conocimiento –ontologías– de cuerpos de texto disponibles en la red (Buitelaar et al., 2005; Navigli et al., 2003; Zhou, 2007), como una base para la construcción de la llamada "web semántica".

Materias:Web semántica Programación (Computadores electrónicos) Bases de datos web
Subjects:Semantic web Programming (Electronic computer) Web databases
Palabras claves:corpus web, crawler, aprendizaje no supervisado de lenguajes, programación concurrente
Keywords:Web Corpus, crawler, unsupervised language learning, concurrent programming

Autor:Gómez Perdomo, Jonatan Cadavid Rengifo, Héctor Fabio.
Categoría:Gestión y administración
Subcategoría:Gestión de tecnología
Año de publicación:2009.
Editor:Universidad Nacional de Colombia

Tipo de documento:Artículos
Formato:pdf
Idioma:Español
Tamaño:566 Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

DC.Title.eng

Web text corpus extraction system for linguistic tasks

DC.Creator

Gómez Perdomo, Jonatan Cadavid Rengifo, Héctor Fabio

DC.Subject.snpi.spa

Web semántica Programación (Computadores electrónicos) Bases de datos web

DC.Subject.snpi.eng

Semantic web Programming (Electronic computer) Web databases

DC.Subject.spa

corpus web, crawler, aprendizaje no supervisado de lenguajes, programación concurrente

DC.Subject.eng

Web Corpus, crawler, unsupervised language learning, concurrent programming

DC.Description.spa

Introducción

DC.Source

https://revistas.unal.edu.co/index.php/ingeinv/article/view/15183/15977

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/sistema-de-extraccion-de-cuerpos-de-texto-de-la-web-para-tareas-linguisticas

DC.Identifier.issn-isbn

ISSN:2248-8723 (Versión electrónica); 0120-5609 (Versión impresa)

DC.Identifier.citacion

Revista Virtual Pro, Diciembre 2009, Ing. Investig. Vol 29. No. 3

DC.Language

Español

DC.Relation

DC.Publisher

Universidad Nacional de Colombia

DC.Contributor

DC.Rights

Derechos de autor:1

DC.Date

2009

DC.Type

Artículos

DC.Format

pdf

DC.Identifier.file

27032.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Información del documento

Titulo:Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
Autor:Cadavid Rengifo, Héctor Fabio; Gómez Perdomo, Jonatan
Tipo:Artículos
Año:2009
Idioma:Español
Editor:Universidad Nacional de Colombia
Materias:Web semántica Programación (Computadores electrónicos) Bases de datos web
Descarga:3

Formas y Cambios de Energía

Escala de pH: Intro

Modelo de áreas: multiplicación

Electrolizador PEM: Fundamentos y operación

Producción de cemento: Etapas y funcionamiento

Producción de hidrógeno vía electrólisis: Tecnologías y proceso

Visita técnica: refinería de petróleo

Visita a planta de acero

Instalaciones piloto de captura de CO2

Finanzas y sostenibilidad

Tecnología y transformación digital

Desarrollo internacional y crisis empresarial

Tecnologías emergentes en sistemas de calidad

Etanol celulósico

Proceso de producción de café

Montaje molinos de viento Gaviotas

Exponential innovation

Webinar: Incidencia de las enfermedades transmitidas por vector ETV en la sociedad colombiana causas-efectos

Mariastella Scandola Monómeros y polímeros de origen biológico: ¿una ruta hacia los plásticos sostenibles?

2025-02-03La medicina del futuro: revolución tecnológica en la salud

2025-01-29Nuevos hallazgos permiten aprovechar mejor la geotermia somera como una energía sostenible

2025-01-29Novedades acerca de TRICARIX: Ayudar a los pacientes con válvula tricúspide de forma mínimamente invasiva

2025-01-29Así es como los antiguos amazónicos se convirtieron en maestros cultivadores de maíz

International Footwear & Leather Show  IFLS 2025

2025-01-27Sandra Camacho habla sobre la telemedicina y su marco legal

2024-12-12WORKSHOP: Tu Network es tu activo más valioso, es tu capital social

2024-12-16Seguridad Psicológica y equipos de Alto Rendimiento

Seymour Papert

John Stuart Mill

Ginni Rometty

Biblioteca122.479 documentos en línea

Ficha técnica

Sistema de extracción de cuerpos de texto de la web para tareas lingüísticasWeb text corpus extraction system for linguistic tasks

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Principios de Onda en una cuerda

Introducción a Polaridad de la molécula

Cadena de producción de la carne

Ósmosis inversa

Principios de Adición de Vectores

Matriz de alternativas ambientales

Generalidades de Masas y Resortes

Videos

Nanopartículas de oro, sobre y alrededor de las células

Facetado 101, capítulo 14: Desacople de la piedra

Experiencia de proyectos con aerogeneradores baja potencia importados - Ramón Corazao Pinto

Crecimiento de nanohilos de ZnO sobre diferentes sustratos cristalinos

Alan Heeger. Transferencia electrónica fotoinducida ultrarrápida como una ruta para celdas solares de alta eficiencia

Análisis de sensibilidad - Programación lineal

Cambio climático y servicios ecosistémicos

Documentos más descargados

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2025-02-03
La medicina del futuro: revolución tecnológica en la salud

2025-01-29
Nuevos hallazgos permiten aprovechar mejor la geotermia somera como una energía sostenible

2025-01-29
Novedades acerca de TRICARIX: Ayudar a los pacientes con válvula tricúspide de forma mínimamente invasiva

2025-01-29
Así es como los antiguos amazónicos se convirtieron en maestros cultivadores de maíz

International Footwear & Leather Show IFLS 2025

2025-01-27
Sandra Camacho habla sobre la telemedicina y su marco legal

2024-12-12
WORKSHOP: Tu Network es tu activo más valioso, es tu capital social

2024-12-16
Seguridad Psicológica y equipos de Alto Rendimiento