-
-
チューニングコンペの概要
- 「大規模言語モデルのファインチューニング技術と評価」ワークショップ
-では、チューニングコンペティションを開催します。
+
+チューニングコンペの概要 Overview of Tuning Competition
+ 「大規模言語モデルのファインチューニング技術と評価」ワークショップ
+では、チューニングコンペティションを開催します。
-安全性に強いLLMを意識したチューニングコンペティションという一面にもフォーカスを当てます。ワークショップ当日に上位チームの出力について、安全性の面からも人手評価で吟味を行う予定です。
+安全性に強いLLMを意識したチューニングコンペティションという一面にもフォーカスを当てます。ワークショップ当日に上位チームの出力について、安全性の面からも人手評価で吟味を行う予定です。
-ベースモデル
+ベースモデル Base Model
ターゲットとするベースモデルは、llm-jp-3-13b (インストラクションチューニング済みモデルも可)に限定します。このモデル
に対して、(1)下流タスクにおける評価を上げるような新しいチューニング技法(SFT, DPO, LoRA などのファインチューニング技術を発展させた形を含む)、(2)下流タスクにおける評価を上げるような新たなデータを構築してそれを既存のファインチューニング技法、(3)上記には該当しないが下流タスクの精度向上やアライメントを実現させる技術、を考案して適用する形のいずれかとします。その上で、下流タスクにおける評価点により、参加者のチームで競います。ターゲットとするベースモデル llm-jp-3-13bは、https://huggingface.co/llm-jp/llm-jp-3-13b,
llm-jp/llm-jp-3-13b-instruct からアクセス可能です。
@@ -113,48 +89,25 @@ ベースモデル
なお、llm-jp-3-13b-instructのSFTで用いているデータは日本語:Ichikara-004-001, AnswerCarefully-001, Dolly, OASST-1, OASST-2, 英語: Dolly, OASST-1, OASST-2です。
データセットの全体https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
-
-評価方法
+
+評価方法 Evaluation Method
評価方法は、AnswerCarefully ボーダーラインデータ、ichikara-instruction1 と同等のデータ(700件、300件をそれぞれ学習用、テスト用、安全性について何も言わない返答を返すモデルを良い点数としないための足きりとして用いる)のコンビネーションの形で行うことを予定しています。どのようにコンビネーションするかの詳細については、別途明示させていただきます。同時に、dockerを用いた提出方法において、明示して、参加チーム内でも測定できる形とします。リーダーボードでは、これを用いた表示で自動的に順位づけを行います。
ワークショップ当日に1時間時間を取り、参加者全員で、上位3チーム(参加チームが多い場合には5チーム)の出力を評価する形で、人手評価を加える予定です。ワークショップ当日には、上位3チームに入らないチームの方も、このような形で評価を行うことに賛同して人手評価に加わっていただけましたらと考えております。同時に、安全性の評価に詳しい者がパネリストとして、結果の吟味を行う時間も作ろうと考えております。
-レジストレーション
+レジストレーション Registration
チューニングコンペティションへのレジストレーションは以下のFORMからお願いします。
-
-