Update H2O_MISO.py #137

Yonv1943 · 2023-06-08T10:13:41Z

我们曾经在上面的帖子讨论过：

对于解 theta 的不同特征，共用了一样的 LSTM模型参数 ... ... 如果想要推广 'Learn to optimize' 到其他问题，那么就需要把 theta的特征维度从 batch size 维度移动到 inp_dim 或者 out_dim 上

现在发现，这两种选择并不是冲突的，我们可以仿照 DuelingDQN的思路：既让 network 同时学习：

不同离散动作对应的Q值的平均
Q值对应不同离散动作的残差

https://github.com/AI4Finance-Foundation/ElegantRL/blob/0c019eec035391dbe7aca1464ed6a0067e5a130f/elegantrl/agents/net.py#L51-L67

class QNetDuel(QNetBase):  # Dueling DQN
    def __init__(self, dims: [int], state_dim: int, action_dim: int):
        super().__init__(state_dim=state_dim, action_dim=action_dim)
        self.net_state = build_mlp(dims=[state_dim, *dims])
        self.net_adv = build_mlp(dims=[dims[-1], 1])  # advantage value
        self.net_val = build_mlp(dims=[dims[-1], action_dim])  # Q value

    def forward(self, state):
        ...
        q_val = self.net_val(s_enc)  # q value
        q_adv = self.net_adv(s_enc)  # advantage value
        value = q_val - q_val.mean(dim=1, keepdim=True) + q_adv  # dueling Q value
        ...

如果用到“NP-hard 的最优化问题上”，我们也可以让 network 学习，然后让网络同时学习：

解theta的梯度对应不同特征的平均值
解theta的梯度对应不同特征的残差

class OptimizerOpti(nn.Module):
    def __init__(self, inp_dim: int, hid_dim: int):
        ...
        self.output0 = nn.Linear(hid_dim * self.num_rnn, 1)
        self.output1 = nn.Linear(hid_dim * self.num_rnn, inp_dim)

    def forward(self, inp0, hid_):
        ...
        hid = th.cat((hid1, hid2), dim=1)
        out_avg = self.output0(hid)
        out_res = self.output1(hid)
        out = out_avg + out_res
        return out, (hid1, hid2)

只修改了3行，就提速我们 Graph MaxCut 的任务了，改了这几行代码，其他地方不需要改动

直接就能去测 TNCO问题。 @ZhangAIPI @spicywei 有空就测测吧。

zhumingpassional · 2023-06-10T07:07:10Z

thanks

Update H2O_MISO.py

70c1be0

Yonv1943 requested review from ZhangAIPI and spicywei June 8, 2023 10:13

YangletLiu requested a review from zhumingpassional June 10, 2023 03:54

zhumingpassional merged commit 3d1df16 into main Jun 10, 2023

zhumingpassional deleted the Yonv1943-duelingH2O branch June 10, 2023 07:07

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Update H2O_MISO.py #137

Update H2O_MISO.py #137

Yonv1943 commented Jun 8, 2023

zhumingpassional commented Jun 10, 2023

Update H2O_MISO.py #137

Update H2O_MISO.py #137

Conversation

Yonv1943 commented Jun 8, 2023

zhumingpassional commented Jun 10, 2023