请问中文albert训练过程中是按字符级分割还是按词语级分割？ #165

rsindper · 2021-11-09T09:47:03Z

请问中文albert训练过程中是按字符级分割还是按词语级分割？基于albert_zh预训练模型做Fine-tune时，有办法选择按字符级还是按词语级分割训练数据吗？谢谢

brightmart · 2021-11-09T10:44:58Z

使用中文的whole word mask的。
你可以改造一下数据生成的流程呢，https://github.com/brightmart/albert_zh/blob/master/create_pretraining_data.py

Provide feedback