Hery H, Wawolangi AC. Decision Policy Optimization for Human–AI Collaboration Using Off-Policy Reinforcement Learning from Logged Interaction Data. Int. J. Appl. Inf. Manag. [Internet]. 2026 Jun. 17 [cited 2026 Jun. 18];6(2):272-89. Available from: http://ijaim.net/journal/index.php/ijaim/article/view/121