最近,建立在通用语料下预训练的多模态大模型,如GPT-4和ViusalGLM,在日常生活领域展现出了优越的问答与图像语义理解能力。这些模型强大的知识储备、图像和语义理解能力和逻辑推理能力,让人们看到了通用人工智能的希望。这使得多模态大模型在很多领域展示出了革命性的应用潜力,并且其有望变革工业设备智能运维领域的应用范式,推动构建智能化和自动化的工业设备运营维护系统,并降低设备监测、运营和维护所需要的人力成本。为实现这一目标,基于VisualGLM模型,我们开发了Defect-GLM来首次探索多模态大模型在工业缺陷检测领域的研究和应用。此外,我们首次构建了一个大规模的图像-文本的半导体晶圆缺陷数据集,以作为Defect-GLM案例验证数据集。Defect-GLM在半导体晶圆缺陷识别与分析应用上表现出了非凡的潜力,在测试数据集中够达到96%的识别准确率。
本项目探索了多模态大模型在工业缺陷检测领域的研究和应用,实现了基于多模态大模型的半导体晶圆缺陷识别和分析;
本项目借助开源晶圆数据集,并结合ChatGPT生成与人工设计的方式,构建了一个半导体晶圆缺陷诊断多模态数据集;
本项目使用所构建的晶圆多模态数据集在VisualGLM-6B进行微调训练,并展示出了非凡的性能和潜力。
Mixed-type Wafer Defect Datasets是一个开源晶圆缺陷数据集,共包括38种不同缺陷类型的38015张晶圆图片。
注意该公开数据集的原始数据类型并不直接适用于多模态模型训练。因此需要对数据集种晶圆图片进行合适的预处理,并结合ChatGPT生成与人工设计等方式获得问答语料,最终结合语料与预处理晶圆数据才得到了可以训练的多模态微调数据集。
# 安装依赖
pip install -r requirements.txt
# 也可使用阿里云镜像安装依赖
pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt
此时默认会安装deepspeed
库(支持sat
库训练),此库对于模型推理并非必要,同时部分Windows
环境安装此库时会遇到问题。 如果想绕过deepspeed
安装,我们可以将命令改为:
# 安装依赖
pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements_wo_ds.txt
# 安装SwissArmyTransformer
pip install -i https://mirrors.aliyun.com/pypi/simple/ --no-deps "SwissArmyTransformer>=0.3.6"
模型权重 | 下载链接 | 微调方法 |
---|---|---|
checkpoint-DefectGLM-6000 | LoRA |
python cli_demo.py --from_pretrained checkpoints/checkpoint_WaferGLM_6000 --prompt_en 'What is the defect in this wafer map?' --english
python web_demo.py --from_pretrained checkpoints/checkpoint_WaferGLM_6000
此时访问http://127.0.0.1:7860
即可
本项目以半导体晶圆缺陷检测为例,探索了多模态大模型在工业缺陷检测领域的研究和应用,在未来的研究中,我们将进一步从工业应用和模型优化两个方面开展工作:
- 探索多模态大模型在轨道交通及其基础设施领域的研究,例如基于多模态大模型的货车故障轨旁图像检测系统图像自动识别;
- 构建更庞大和文本语料更丰富的工业检测数据集,并在文本语料中融入维修决策规划等信息;
- 探索基于工业物理知识嵌入的多模态大模型,以实现更准确的工业场景理解,给出可靠可信的决策结果;
- 探索更大更复杂的多模态大模型在工业场景下的研究和应用,例如将VisualGLM-6B更换为GPT-4.
感谢VisualGLM-6B为我们提供基础的开源多模态大模型和相关技术支持。
感谢Wang et al. [1] 提供开源的晶圆缺陷检测数据集Mixed-type Wafer Defect Datasets 。
[1] J. Wang, C. Xu, Z. Yang, J. Zhang and X. Li, "Deformable Convolutional Networks for Efficient Mixed-type Wafer Defect Pattern Recognition," in IEEE Transactions on Semiconductor Manufacturing, DOI: 10.1109/TSM.2020.3020985.
这项工作由清华大学质量与可靠性研究院博士生王欢(http://huanwang.online/) 和电子科技大学李晨希同学完成,指导老师为李彦夫教授(http://www2.ie.tsinghua.edu.cn/liyanfu/) 。
本项目相关资源仅供学术研究之用,严禁用于商业用途。使用涉及第三方代码的部分时,请严格遵循相应的开源协议。模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目无法对其准确性作出保证。对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
如果你使用了本项目的模型,数据或者代码,请声明引用:
@misc{Wang2023LSF-Model,
title={ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps},
author={Yan-Fu Li*, Huan Wang* and Muxia Sun},
year={2023},
publisher = {ArXiv Preprint},
journal = {ArXiv Preprint},
howpublished = {\url{https://arxiv.org/abs/2305.06472}},
}
@misc{Wang2023Defect-GLM,
title={A Large-Scale Visual-Language Model for Industrial Defect Monitoring},
author={Huan Wang, Chenxi Li, and Yan-Fu Li*},
year={2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/WH-HuanWang/Defect-GLM}},
}
此存储库遵循CC BY-NC-SA ,请参阅许可条款。