Biblioteca122.294 documentos en línea

Artículo

Policy Iteration for Continuous-Time Average Reward Markov Decision Processes in Polish SpacesIteración de políticas para procesos de decisión de Markov con recompensa promedio en tiempo continuo en espacios polacos.

Resumen

Estudiamos el (PIA) para procesos de decisión de Markov de salto en tiempo continuo en espacios de estado y acción generales. Se permite que las tasas de transición correspondientes sean , y las tasas de recompensa pueden tener . El criterio con el que nos preocupamos es . Proponemos un conjunto de condiciones bajo las cuales primero establecemos la ecuación de optimalidad de recompensa promedio y presentamos el PIA. Luego, bajo dos diferentes conjuntos de condiciones, demostramos que el PIA produce la recompensa óptima (máxima), una política estacionaria óptima promedio, y una solución a la ecuación de optimalidad de recompensa promedio.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento