您的位置:首页 > 资讯 >

环球快看点丨自然语言处理 Paddle NLP - 预训练模型产业实践课-理论

2023-07-03 14:34:21 来源:博客园

评论


(资料图片仅供参考)

模型压缩:理论基础模型压缩基本方法分为三类:

量化裁剪蒸馏量化裁剪绿线:随机裁剪 30% 已经扛不住了蓝线:60% 还不错蒸馏蒸馏任务与原来的学习任务同时进行.对于没有标注的数据,可以只学习teacher的预测概率Teacher model:教师模型,是已经训练好的,比较不错的模型。Student(distilled) model:学生模型,是重新初始化的小模型,去学生老师的结果设置损失函数,让学生的概率分布,往老师上靠。使得学生能够复现老师的输出,从而获得老师的准确率

蒸馏的信号

第一步:A 首先对Student进行学习,不带蒸馏的,一般在无监督数据上进行 lask第二步:把学习的模型拿过来,带一个老师模型,同样进行无监督学习,B第三步:通过通用的老师.. 视频时间:20:00任务无关蒸馏:不需要知道下一步要做什么,蒸完就能直接拿去用3层,比12层更小,更宽。压缩模型最好是压深度,而不是宽度,因为压缩深度可以有效的降低依赖性,使用3步就可以完成计算,宽度有些设备可以高效的并行完成宽度的大小对整个模型的预测时间,是影响不大的中文是没有空格的语言,所以先要分词产业实践案例模型上线,首先要考虑的是模型是不是需要微调,有些模型不需要微调,直接可以上线。

可能没有数据给他微调希望这个模型做为下游模型的输入

CPU在线预测应用数据增强

实践案例:搜索问答

实践案例:GPU在线预测应用在搜索引擎

关键词:

[责任编辑:]

相关阅读