Biblioteca122.739 documentos en línea

Ficha técnica

19 | 0

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículos

AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy GameAIBPO: Combina la Recompensa Intrínseca y la Tarea Auxiliar para Juego de Estrategia en 3D

Resumen

En los últimos años, el aprendizaje profundo por refuerzo (DRL, por sus siglas en inglés) ha logrado un gran éxito en muchos campos, especialmente en el ámbito de los juegos, como AlphaGo, AlphaZero y AlphaStar. Sin embargo, debido al problema de escasez de recompensas, el método basado en DRL tradicional muestra un rendimiento limitado en juegos en 3D, los cuales contienen un espacio de estados de dimensiones mucho más altas. Para resolver este problema, en este artículo, proponemos un algoritmo de optimización de políticas basado en recompensas intrínsecas (IBPO, por sus siglas en inglés) para la escasez de recompensas. En el IBPO, se integra una recompensa intrínseca novedosa en la red de valores, la cual proporciona una recompensa adicional en un entorno con recompensa escasa, con el fin de acelerar el entrenamiento. Además, para abordar el problema de sesgo en la estimación de valores, diseñamos tres tipos adicionales de tareas auxiliares, las

Materias:Funciones Flujo de informaciÃ³n Estudio de poblaciÃ³n Modelado de sistemas Modelo de campo
Subjects:Functions Information flow Population study System modeling Field model
Palabras claves:Aprendizaje profundo por refuerzo; Algoritmo IBPO; Escasez de recompensas; Recompensa intrínseca; Tareas auxiliares; Sesgo en la estimación de valor
Keywords:Deep reinforcement learning; IBPO algorithm; Reward sparsity; Intrinsic reward; Auxiliary tasks; Value estimation bias

Autor:Li, Huale; Cao, Rui; Wang, Xuan; Hou, Xiaohan; Qian, Tao; Jia, Fengwei; Zhang, Jiajia; Qi, Shuhan.
Categoría:Ciencias aplicadas e interdisciplinarias
Subcategoría:Ingeniería de sistemas
Año de publicación:2021.
Editor:Hindawi

Tipo de documento:
Formato:pdf
Idioma:Inglés
Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy Game

DC.Title.eng

AIBPO: Combina la Recompensa Intrínseca y la Tarea Auxiliar para Juego de Estrategia en 3D

DC.Creator

Li, Huale; Cao, Rui; Wang, Xuan; Hou, Xiaohan; Qian, Tao; Jia, Fengwei; Zhang, Jiajia; Qi, Shuhan

DC.Subject.snpi.spa

Funciones Flujo de informaciÃ³n Estudio de poblaciÃ³n Modelado de sistemas Modelo de campo

DC.Subject.snpi.eng

Functions Information flow Population study System modeling Field model

DC.Subject.spa

Aprendizaje profundo por refuerzo; Algoritmo IBPO; Escasez de recompensas; Recompensa intrínseca; Tareas auxiliares; Sesgo en la estimación de valor

DC.Subject.eng

Deep reinforcement learning; IBPO algorithm; Reward sparsity; Intrinsic reward; Auxiliary tasks; Value estimation bias

DC.Description.spa

DC.Source

https://www.hindawi.com/journals/complexity/2021/6698231

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/aibpo-combina-la-recompensa-intrinseca-y-la-tarea-auxiliar-para-juego-de-estrategia-en-3d-120666

DC.Identifier.issn-isbn

ISSN:1076-2787

DC.Identifier.citacion

Revista Virtual Pro, ,

DC.Language

Inglés

DC.Relation

DC.Publisher

Hindawi

DC.Contributor

DC.Rights

Derechos de autor:6

DC.Date

2021

DC.Type

Artículos

DC.Format

pdf

DC.Identifier.file

https://downloads.hindawi.com/journals/complexity/2021/6698231.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Información del documento

Titulo:AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy Game
Autor:Li, Huale; Cao, Rui; Wang, Xuan; Hou, Xiaohan; Qian, Tao; Jia, Fengwei; Zhang, Jiajia; Qi, Shuhan
Tipo:Artículos
Año:2021
Idioma:Inglés
Editor:Hindawi
Materias:Funciones Flujo de informaciÃ³n Estudio de poblaciÃ³n Modelado de sistemas Modelo de campo
Descarga:0

Formas y Cambios de Energía

Escala de pH: Intro

Modelo de áreas: multiplicación

Electrolizador PEM: Fundamentos y operación

Producción de cemento: Etapas y funcionamiento

Producción de hidrógeno vía electrólisis: Tecnologías y proceso

Visita técnica: refinería de petróleo

Visita a planta de acero

Instalaciones piloto de captura de CO2

Finanzas y sostenibilidad

Tecnología y transformación digital

Desarrollo internacional y crisis empresarial

Tecnologías emergentes en sistemas de calidad

Etanol celulósico

Proceso de producción de café

Montaje molinos de viento Gaviotas

Exponential innovation

Webinar: Incidencia de las enfermedades transmitidas por vector ETV en la sociedad colombiana causas-efectos

Mariastella Scandola Monómeros y polímeros de origen biológico: ¿una ruta hacia los plásticos sostenibles?

2025-01-08El experimento de Georgetown: siete décadas de traducción automática

2025-01-08Transformando el futuro a través de la innovación y la sostenibilidad

2025-01-07Un matemático calculó qué le pasará a la natalidad de Japón si nada cambia. Le salió una fecha donde habrá un solo niño

2025-01-07Estados Unidos registra la primera muerte por gripe aviar

2024-12-11Capacitación de Metodología y Enseñanza COIL

2024-12-05Jornada de Dirección y Liderazgo Escolar

2024-12-11Taller presencial Reconociendo el inicio del camino

2024-12-16Desafíos de la comunicación para el 2025

Ginni Rometty

Augustin Mouchot

Aleksandr Oparin

Biblioteca122.739 documentos en línea

Ficha técnica

AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy GameAIBPO: Combina la Recompensa Intrínseca y la Tarea Auxiliar para Juego de Estrategia en 3D

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Principios de Onda en una cuerda

Introducción a Polaridad de la molécula

Cadena de producción de la carne

Ósmosis inversa

Principios de Adición de Vectores

Matriz de alternativas ambientales

Generalidades de Masas y Resortes

Videos

Aplicaciones de Quantum y proyectos de usuario con D-Wave | Webinar

Reciclaje PET - Cómo abrir un negocio de reciclaje

Nuevas fronteras en biorremediación

Criterios para la selección de Válvulas

Emily Carter. Mecanismos de reducción fotoelectroquímica de dióxido de carbono... - 27 de septiembre de 2013

Webinar: Active learning en aulas para adultos, Parte 1

Aplicaciones de la nanotecnología en el envasado de alimentos

Documentos más descargados

2022-06-21Adaptación del mundo cibernético a los sistemas productivos

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2025-01-08
El experimento de Georgetown: siete décadas de traducción automática

2025-01-08
Transformando el futuro a través de la innovación y la sostenibilidad

2025-01-07
Un matemático calculó qué le pasará a la natalidad de Japón si nada cambia. Le salió una fecha donde habrá un solo niño

2025-01-07
Estados Unidos registra la primera muerte por gripe aviar

2024-12-11
Capacitación de Metodología y Enseñanza COIL

2024-12-05
Jornada de Dirección y Liderazgo Escolar

2024-12-11
Taller presencial Reconociendo el inicio del camino

2024-12-16
Desafíos de la comunicación para el 2025

2022-06-21
Adaptación del mundo cibernético a los sistemas productivos