El dilema del prisionero iterado (DPI) es bien conocido en el ámbito de la teoría de juegos. Aunque es relativamente sencillo, también puede dilucidar importantes problemas relacionados con la cooperación y la confianza. En general, los jugadores pueden predecir las acciones de sus oponentes cuando son capaces de construir un modelo preciso de su comportamiento basado en su experiencia de juego. Sin embargo, es difícil hacer tales predicciones basándose en un número limitado de partidas. La creación de un modelo preciso requiere el uso no sólo de un algoritmo y un marco de aprendizaje adecuados, sino también de un buen conjunto de datos. Los enfoques de aprendizaje activo se han introducido recientemente en las comunidades de aprendizaje automático. Este enfoque suele producir conjuntos de datos informativos con relativamente poco esfuerzo. Por lo tanto, hemos propuesto una técnica de modelado activo para predecir el comportamiento de los jugadores de IPD. El método propuesto puede modelar el comportamiento del jugador adversario aprovechando los entornos de juego interactivos. Este experimento utilizó doce tipos representativos de jugadores como oponentes, y un observador utilizó un algoritmo de modelado activo para modelar estos oponentes. Este observador recogió activamente datos y modeló el comportamiento del oponente en línea. La mayoría de nuestros datos mostraron que el observador fue capaz de construir, a través de acciones directas, un modelo más preciso del comportamiento de un oponente que cuando los datos fueron recogidos a través de acciones aleatorias.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Características demográficas de los velocistas jamaicanos de clase mundial
Artículo:
Diagnóstico óptimo de COVID-19 basado en la red neuronal convolucional y el algoritmo de optimización Red Fox
Artículo:
Aplicación del VMD a la detección de fugas en tuberías mediante ondas de presión negativas
Artículo:
Una revisión: Sensores piezorresistivos de deformación basados en nanotubos de carbono
Artículo:
Algoritmo híbrido de restauración de agujeros de cobertura en redes de sensores inalámbricas