fairseq v1.0およびFSDPへの対応 #1

jnishi · 2022-03-18T07:02:47Z

公式にはfairseq v0.10.2までにしか対応していませんが、fairseq v1.0に暫定的に対応させてみました。
また、おそらくFully Sharded Data Parallel使用時のwrapperのせいだと思いますが、TransformerのEncoderやDecoderがそれぞれBaseモデルで作成されてしまっているため、EL-attentionなどfastseqの機能が使えなかったのをすべてBaseクラスに移すことによって使えるようにしました。

注意点としては一か所だけfairseqに修正が必要です。SequenceGeneratorクラスのインスタンス変数に self.no_repeat_ngram_size を追加してください。0.10.2では存在していましたが、1.0では無くなったものです。

diff --git a/fairseq/sequence_generator.py b/fairseq/sequence_generator.py
index e7e02d82..fecea291 100644
--- a/fairseq/sequence_generator.py
+++ b/fairseq/sequence_generator.py
@@ -91,6 +91,7 @@ class SequenceGenerator(nn.Module):
         self.temperature = temperature
         self.match_source_len = match_source_len

+        self.no_repeat_ngram_size = no_repeat_ngram_size
         if no_repeat_ngram_size > 0:
             self.repeat_ngram_blocker = NGramRepeatBlock(no_repeat_ngram_size)
         else:

support models of FSDP.

jnishi added 2 commits March 18, 2022 12:55

support v1.0

9bdf5d3

support models of FSDP.

fix base class of TransformerEncoderBase

29e59ca

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fairseq v1.0およびFSDPへの対応 #1

fairseq v1.0およびFSDPへの対応 #1

jnishi commented Mar 18, 2022

fairseq v1.0およびFSDPへの対応 #1

Are you sure you want to change the base?

fairseq v1.0およびFSDPへの対応 #1

Conversation

jnishi commented Mar 18, 2022