From f7398c92abb0e361d1829b7e70916c1e3ef93dbc Mon Sep 17 00:00:00 2001
From: KairuiHu <kairuih12@gmail.com>
Date: Wed, 27 Nov 2024 15:44:21 +0800
Subject: [PATCH] final proofread

---
 docs/lmms-eval-0.3.md | 171 ------------------------------------------
 1 file changed, 171 deletions(-)
diff --git a/docs/lmms-eval-0.3.md b/docs/lmms-eval-0.3.md
index aee2fbc9..368f39d5 100644
--- a/docs/lmms-eval-0.3.md
+++ b/docs/lmms-eval-0.3.md
@@ -155,177 +155,6 @@ This upgrade includes multiple benchmarks for audio understanding and instructio
 | **VocalSound** | test | Acc | 0.936 | 0.81 |
 |  | val |  | 0.9288 | 0.8 |
 | **WavCaps** | test | GPT-Eval | 1.73 |  |
-#### Table 2: Alignment check for audio datasets
-
-<table>
-  <tr>
-    <th></th>
-    <th></th>
-    <th>Metric</th>
-    <th>Qwen2-Audio-Instruct (lmms-eval)</th>
-    <th>Qwen2-Audio (lmms-eval)</th>
-  </tr>
-  <tr>
-    <td rowspan="4" align="center">AIRBench-Chat</td>
-    <td>Speech</td>
-    <td rowspan="4" align="center">GPT-Eval</td>
-    <td>7.16</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Sound</td>
-    <td>6.14</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Music</td>
-    <td>6.66</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Mixed</td>
-    <td>5.75</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td rowspan="3" align="center">AIRBench-Foundation</td>
-    <td>Speech</td>
-    <td rowspan="3" align="center">Acc</td>
-    <td>62.89</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Sound</td>
-    <td></td>
-    <td>55.42</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Music</td>
-    <td></td>
-    <td>56.77</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Alpaca</td>
-    <td>test</td>
-    <td>GPT-Eval</td>
-    <td>51.8</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>Clotho_aqa</td>
-    <td>test</td>
-    <td>GPT-Eval</td>
-    <td>0.7587</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td rowspan="3" align="center">Common_voice</td>
-    <td>zh</td>
-    <td rowspan="3" align="center">WER</td>
-    <td>15.78</td>
-    <td>6.7</td>
-  </tr>
-  <tr>
-    <td>en</td>
-    <td></td>
-    <td>36.01</td>
-    <td>27.9</td>
-  </tr>
-  <tr>
-    <td>fr</td>
-    <td></td>
-    <td>39.88</td>
-    <td>34.8</td>
-  </tr>
-  <tr>
-    <td rowspan="2" align="center">GigaSpeech</td>
-    <td>dev</td>
-    <td rowspan="2" align="center">WER</td>
-    <td>19.45</td>
-    <td>14</td>
-  </tr>
-  <tr>
-    <td>test</td>
-    <td></td>
-    <td>22.6</td>
-    <td>15.01</td>
-  </tr>
-  <tr>
-    <td rowspan="4" align="center">LibriSpeech</td>
-    <td>dev-clean</td>
-    <td rowspan="4" align="center">WER</td>
-    <td>4.24</td>
-    <td>1.66</td>
-  </tr>
-  <tr>
-    <td>dev-others</td>
-    <td></td>
-    <td>6.54</td>
-    <td>3.66</td>
-  </tr>
-  <tr>
-    <td>test-clean</td>
-    <td></td>
-    <td>3.59</td>
-    <td>1.74</td>
-  </tr>
-  <tr>
-    <td>test-others</td>
-    <td></td>
-    <td>7.46</td>
-    <td>3.87</td>
-  </tr>
-  <tr>
-    <td>MuchoMusic</td>
-    <td>test</td>
-    <td>Acc</td>
-    <td>68.32</td>
-    <td>45.07</td>
-  </tr>
-  <tr>
-    <td>OpenHermes</td>
-    <td>test</td>
-    <td>GPT-Eval</td>
-    <td>46.8</td>
-    <td></td>
-  </tr>
-  <tr>
-    <td>People_speech</td>
-    <td>val</td>
-    <td>WER</td>
-    <td>25.86</td>
-    <td>17.1</td>
-  </tr>
-  <tr>
-    <td>Tedium</td>
-    <td>val</td>
-    <td>WER</td>
-    <td>10.92</td>
-    <td>8.29</td>
-  </tr>
-  <tr>
-    <td rowspan="2" align="center">VocalSound</td>
-    <td>test</td>
-    <td rowspan="2" align="center">Acc</td>
-    <td>0.936</td>
-    <td>0.81</td>
-  </tr>
-  <tr>
-    <td>val</td>
-    <td></td>
-    <td>0.9288</td>
-    <td>0.8</td>
-  </tr>
-  <tr>
-    <td>WavCaps</td>
-    <td>test</td>
-    <td>GPT-Eval</td>
-    <td>1.73</td>
-    <td></td>
-  </tr>
-</table>
 
 
 The result might be inconsistent with the reported result as we do not have the original prompt and we have to maintain the fair environment for all the models. For the base model, we do not test on the Chat Benchmarks.

		Metric	Qwen2-Audio-Instruct (lmms-eval)	Qwen2-Audio (lmms-eval)
AIRBench-Chat	Speech	GPT-Eval	7.16
	Sound		6.14
	Music		6.66
	Mixed		5.75
AIRBench-Foundation	Speech	Acc	62.89
	Sound			55.42
	Music			56.77
Alpaca	test	GPT-Eval	51.8
Clotho_aqa	test	GPT-Eval	0.7587
Common_voice	zh	WER	15.78	6.7
	en			36.01	27.9
	fr			39.88	34.8
GigaSpeech	dev	WER	19.45	14
GigaSpeech	test	WER		22.6	15.01
LibriSpeech	dev-clean	WER	4.24	1.66
	dev-others			6.54	3.66
	test-clean			3.59	1.74
	test-others			7.46	3.87
MuchoMusic	test	Acc	68.32	45.07
OpenHermes	test	GPT-Eval	46.8
People_speech	val	WER	25.86	17.1
Tedium	val	WER	10.92	8.29
VocalSound	test	Acc	0.936	0.81
VocalSound	val	Acc		0.9288	0.8
WavCaps	test	GPT-Eval	1.73