HERY, H.; WAWOLANGI, A. C. . Decision Policy Optimization for Human–AI Collaboration Using Off-Policy Reinforcement Learning from Logged Interaction Data. International Journal for Applied Information Management, [S. l.], v. 6, n. 2, p. 272–289, 2026. DOI: 10.47738/ijaim.v6i2.121. Disponível em: http://ijaim.net/journal/index.php/ijaim/article/view/121. Acesso em: 18 jun. 2026.