comment

opentensor · Aug 25, 2023 · b156a6d · b156a6d
1 parent e8a65f2
commit b156a6d
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/openvalidators/reward/dpo.py b/openvalidators/reward/dpo.py
@@ -33,7 +33,7 @@ def name(self) -> str: return RewardModelType.dpo.value
     def __init__(self, device: str):
         super().__init__()
         self.device = device
-        self.penalty = 1.2
+        self.penalty = 1.2 # Same penalty as the original [paper](https://arxiv.org/pdf/1909.05858.pdf).
         self.tokenizer = AutoTokenizer.from_pretrained(DirectPreferenceRewardModel.reward_model_name)
         self.model = AutoModelForCausalLM.from_pretrained(DirectPreferenceRewardModel.reward_model_name,
                                                           trust_remote_code=True,