Eval dataset issue in DPOTrainer when precompute_ref_log_probs=True and ref_model=None #1107

Sanster · 2023-12-19T02:31:32Z

when precompute_ref_log_probs=True, reference_chosen_logps and reference_rejected_logps was not saved to self.eval_dataset. When ref_model=None, subsequent evaluations will use self.model to recalculate, resulting in eval/acc
is always zero (because the policy and reference are using the same model).

trl/trl/trainer/dpo_trainer.py

Line 448 in d708ec2

    
           def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -> DataLoader:

Perhaps it should be modified like this:

    def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -> DataLoader:
        """
        Returns the evaluation [`~torch.utils.data.DataLoader`].

        Subclass of transformers.src.transformers.trainer.get_eval_dataloader to precompute `ref_log_probs`.

        Args:
            eval_dataset (`torch.utils.data.Dataset`, *optional*):
                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted
                by the `model.forward()` method are automatically removed. It must implement `__len__`.
        """
        if eval_dataset is None and self.eval_dataset is None:
            raise ValueError("Trainer: evaluation requires an eval_dataset.")
        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset

        if self.precompute_ref_log_probs and not self._precomputed_eval_ref_log_probs:
            dataloader_params = {
                "batch_size": self.args.per_device_eval_batch_size,
                "collate_fn": self.data_collator,
                "num_workers": self.args.dataloader_num_workers,
                "pin_memory": self.args.dataloader_pin_memory,
                "shuffle": False,
            }

            # prepare dataloader
            data_loader = self.accelerator.prepare(DataLoader(eval_dataset, **dataloader_params))

            reference_chosen_logps = []
            reference_rejected_logps = []
            for padded_batch in tqdm(iterable=data_loader, desc="Eval dataset reference log probs"):
                reference_chosen_logp, reference_rejected_logp = self.compute_reference_log_probs(padded_batch)
                reference_chosen_logp, reference_rejected_logp = self.accelerator.gather_for_metrics(
                    (reference_chosen_logp, reference_rejected_logp)
                )
                reference_chosen_logps.append(reference_chosen_logp.cpu())
                reference_rejected_logps.append(reference_rejected_logp.cpu())

            all_reference_chosen_logps = torch.cat(reference_chosen_logps).float().numpy()
            all_reference_rejected_logps = torch.cat(reference_rejected_logps).float().numpy()

            eval_dataset = eval_dataset.add_column(name="reference_chosen_logps", column=all_reference_chosen_logps)
            eval_dataset = eval_dataset.add_column(
                name="reference_rejected_logps", column=all_reference_rejected_logps
            )
            #### Save calculated reference_chosen_logps and reference_rejected_logps #####
            if self.eval_dataset is not None:
                self.eval_dataset = eval_dataset
            self._precomputed_eval_ref_log_probs = True

        return super().get_eval_dataloader(eval_dataset=eval_dataset)

The text was updated successfully, but these errors were encountered:

lvwerra · 2023-12-21T15:18:23Z

tagging @kashif here :)

kashif · 2023-12-21T15:27:26Z

@Sanster so i had assumed super().get_eval_dataloader(eval_dataset=eval_dataset) would then set the dataset... so you are saying that is not the case?

ah no I see its because in the trainer we use the self.eval_dataset right?

kashif · 2023-12-21T15:54:49Z

great catch @Sanster thanks!

lvwerra added the 🏋 DPO Related to DPO label Dec 21, 2023

kashif self-assigned this Dec 21, 2023

kashif mentioned this issue Dec 21, 2023

[DP0] save eval_dataset for subsequent calls #1125

Merged

kashif closed this as completed in #1125 Dec 21, 2023

raghavgarg97 mentioned this issue Dec 27, 2023

Still facing same issue as #1107 #1148

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Eval dataset issue in DPOTrainer when precompute_ref_log_probs=True and ref_model=None #1107

Eval dataset issue in DPOTrainer when precompute_ref_log_probs=True and ref_model=None #1107

Sanster commented Dec 19, 2023

lvwerra commented Dec 21, 2023

kashif commented Dec 21, 2023 •

edited

Loading

kashif commented Dec 21, 2023

Eval dataset issue in DPOTrainer when precompute_ref_log_probs=True and ref_model=None #1107

Eval dataset issue in DPOTrainer when precompute_ref_log_probs=True and ref_model=None #1107

Comments

Sanster commented Dec 19, 2023

lvwerra commented Dec 21, 2023

kashif commented Dec 21, 2023 • edited Loading

kashif commented Dec 21, 2023

kashif commented Dec 21, 2023 •

edited

Loading