Estudiamos el (PIA) para procesos de decisión de Markov de salto en tiempo continuo en espacios de estado y acción generales. Se permite que las tasas de transición correspondientes sean , y las tasas de recompensa pueden tener . El criterio con el que nos preocupamos es . Proponemos un conjunto de condiciones bajo las cuales primero establecemos la ecuación de optimalidad de recompensa promedio y presentamos el PIA. Luego, bajo dos diferentes conjuntos de condiciones, demostramos que el PIA produce la recompensa óptima (máxima), una política estacionaria óptima promedio, y una solución a la ecuación de optimalidad de recompensa promedio.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Un algoritmo competitivo imperialista eficiente para resolver el problema de decisión QFD
Artículo:
Detección de botnets utilizando máquinas de vectores de soporte con algoritmo de enjambre de peces artificiales.
Artículo:
En el disco más grande mapeado por la suma de funciones convexas y estrelladas.
Artículo:
Permanencia y Soluciones Casi Periódicas de un Sistema Leslie Dependiente de Razón Discreto con Retardos Temporales y Controles de Retroalimentación
Artículo:
Una técnica de clasificación eficiente para números difusos intuicionistas con su aplicación en programación bilevel con restricciones de probabilidad.