请教：0-1关联矩阵的深度强化学习算法

想用深度强化学习训练，得到的action为0或者1的一组向量，经过数学处理转化为0-1关联矩阵。但是不知道选用何种DRL算法合适，请各位大佬指教！

Document