Cookies y Privacidad
Usamos cookies propias y de terceros para mejorar la experiencia de nuestros usuarios, analizar el tráfico del sitio y personalizar contenido. Si continúas navegando, asumimos que aceptas su uso. Para más información, consulta nuestra Política de Cookies
Evaluación comparativa de modelos de lenguaje de gran tamaño para aplicaciones y recomendaciones de procesamiento del lenguaje natural biomédico
El rápido aumento de publicaciones biomédicas dificulta su análisis manual, por lo que el Procesamiento de Lenguaje Natural Biomédico (BioNLP) busca automatizar esta tarea. Este artículo presenta una evaluación del desempeño de cuatro modelos de lenguaje grande (LLMs), como GPT y LLaMA, en 12 pruebas BioNLP. Se comparan enfoques sin entrenamiento (zero-shot), con pocos ejemplos (few-shot) y entrenamiento tradicional con modelos como BERT. Los resultados muestran que el entrenamiento tradicional sigue siendo más efectivo en la mayoría de tareas, aunque modelos como GPT-4 destacan en razonamiento médico. Se identificaron problemas como información faltante y alucinaciones, ofreciendo recomendaciones prácticas para su uso en biomedicina.
Autores: Chen, Qingyu; Hu, Yan; Peng, Xueqing; Xie, Qianqian; Jin, Qiao; Gilson, Aidan; Singer, Maxwell B.; Ai, Xuguang; La, Po-Ting; Wang, Zhizheng; Keloth, Vipina K.; Raja, Kalpana; Huang, Jimin; He, Huan; Lin, Fongci; Du, Jingcheng; Zhang, Rui; Zheng, W. Jim; Adelman, Ron A.; Lu, Zhiyong; Xu, Hua
Idioma: Inglés
Editor: Nathalie Le Bot
Año: 2019
Categoría
Licencia
Consultas: 16
Citaciones: Sin citaciones
Este documento es un artículo elaborado por Qingyu Chen, Yan Hu, Xueqing Peng, Qianqian Xie, Qiao Jin, Aidan Gilson, Maxwell B. Singer, Xuguang Ai, Po-Ting Lai, Zhizheng Wang, Vipina K. Keloth, Kalpana Raja, Jimin Huang, Huan He, Fongci Lin, Jingcheng Du, Rui Zhang, W. Jim Zheng, Ron A. Adelman, Zhiyong Lu y Hua Xu (Universidad de Yale, Instituto Nacional de Salud, Universidad de Texas, Universidad de Minnesota, Estados Unidos de América) para la revista Nature Communications Vol. 16 Num. 3280. Publicación de Nature Portfolio. Contacto: naturecommunications@nature.com
El rápido aumento de publicaciones biomédicas dificulta su análisis manual, por lo que el Procesamiento de Lenguaje Natural Biomédico (BioNLP) busca automatizar esta tarea. Este artículo presenta una evaluación del desempeño de cuatro modelos de lenguaje grande (LLMs), como GPT y LLaMA, en 12 pruebas BioNLP. Se comparan enfoques sin entrenamiento (zero-shot), con pocos ejemplos (few-shot) y entrenamiento tradicional con modelos como BERT. Los resultados muestran que el entrenamiento tradicional sigue siendo más efectivo en la mayoría de tareas, aunque modelos como GPT-4 destacan en razonamiento médico. Se identificaron problemas como información faltante y alucinaciones, ofreciendo recomendaciones prácticas para su uso en biomedicina.
El rápido aumento de publicaciones biomédicas dificulta su análisis manual, por lo que el Procesamiento de Lenguaje Natural Biomédico (BioNLP) busca automatizar esta tarea. Este artículo presenta una evaluación del desempeño de cuatro modelos de lenguaje grande (LLMs), como GPT y LLaMA, en 12 pruebas BioNLP. Se comparan enfoques sin entrenamiento (zero-shot), con pocos ejemplos (few-shot) y entrenamiento tradicional con modelos como BERT. Los resultados muestran que el entrenamiento tradicional sigue siendo más efectivo en la mayoría de tareas, aunque modelos como GPT-4 destacan en razonamiento médico. Se identificaron problemas como información faltante y alucinaciones, ofreciendo recomendaciones prácticas para su uso en biomedicina.