1、支持常规四码编码以及两码和三码编码
- 四码:
- 单字:原码
- 两字:W11 + W12 + W21 + W22
- 三字:W11 + W21 + W31 + W32
- 四字及以上:W11 + W21 + W31 + W41
- 两码:
- 单字:原码
- 两字:W11 + W12 + W21 + W22
- 三字及以上:W11 + W12 + W21 + W22 + W31 + W32 + ...
- 三码:
- 单字:原码
- 两字:W11 + W12 + W13 + W21 + W22 + W23
- 三字及以上:W11 + W12 + W13 + W21 + W22 + W23 + W31 + W32 + W33 + ...
2、支持多种码表格式
- 字+':'+编码
- 字+','+编码
- 字+Tab+编码
3、支持带词频词条
- 词条+Tab+词频
4、所有文件格式必须为UTF-8