Este breve trabajo proporciona un algoritmo simple que selecciona una estrategia en cada momento en un conjunto dado de múltiples estrategias para problemas estocásticos de bandidos multiarmados, jugando así el brazo por la estrategia elegida en cada momento. El algoritmo sigue la idea del ϵ t -switching probabilístico en la estrategia ϵ t -greedy y es asintóticamente óptimo en el sentido de que la estrategia seleccionada converge a la mejor del conjunto bajo algunas condiciones sobre las estrategias del conjunto y la secuencia de { ϵ t } .
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Dinámica del sistema de remolque espacial con una correa de sujeción corta
Artículo:
Un método óptimo para desarrollar un sistema global de gestión de la cadena de suministro
Artículo:
Un Control Predictivo de Modelo de Conjunto de Control Finito Simplificado para el Sistema de Conversión de Potencia de Tres Niveles Tipo T Basado en el Filtro LCL
Artículo:
Mejora del seguimiento de la fase de la portadora basado en una arquitectura vectorial conjunta
Video:
Minimización convexa. Parte 2