[1]

H. Hery and A. C. . Wawolangi, “Decision Policy Optimization for Human–AI Collaboration Using Off-Policy Reinforcement Learning from Logged Interaction Data”, Int. J. Appl. Inf. Manag., vol. 6, no. 2, pp. 272–289, Jun. 2026.