文/澳门新葡萄新京数字 吴皓天
自然语言处理(NLP)属于人工智能中认知智能领域的技术,在近一两年实现了显著的突破。深度学习等技术的成功应用使得 NLP 在不同行业领域内的发展迅速,深层注意力模型取代RNN、CNN成为标准,预训练语言模型成为标配,特别是人机对话方面,已经发展出了智能客服、智能助理、智能外呼等多个场景应用。在市场发展方面,预计到2020年,中国NLP技术直接市场规模150亿元,企业智能直接市场规模超过200亿元,二者可带动4000亿元的间接市场规模。但与此同时,NLP技术在不同领域不同的场景中会遇到各种各样的难题,例如面向企业智能客服系统,要取得良好的应用效果,不仅需要和企业所在的业务领域、应用场景相结合,也需要在没有充分训练数据的情况下,仍能有一个较好的“冷启动”效果。因此,NLP技术的工程化落地并不是一个个算法的累积,也不是一个个任务的独立优化,不是追求最优解,而应该是系统工程,寻求效果满意解的过程。
澳门新葡萄新京数字自成立之初,就确立以NLP技术作为核心研发方向,历时一年完成从0-1的智能问答产品及相关产品的研发和商用。澳门新葡萄新京数字提出了NLP工程化落地的方法论,并构建了NLP技术工程化能力集。除了研发和运用业内领先的NLP算法,澳门新葡萄新京数字团队在项目实施过程中还结合了诸如模型融合、模型蒸馏、增量学习、迁移学习、情感分析、用户体验设计、知识库运营工具、模型迭代机制等工程化的方法,帮助NLP技术能够更好的在行业中落地,解决客户需求的同时,让客户满意。经过团队的持续努力,目前澳门新葡萄新京数字已经落地了多个项目,包括省级政务行业智能客服系统、酒店行业网评语义分析系统、省级交通行业智能运政研究课题、城市大脑示范园区智能服务系统等,覆盖了工商、社保、交通运输等行业。
以模型蒸馏为例,随着自然语言处理界的里程碑式模型BERT横空出世,囊括了所有NLP常见任务(分类、序列标注、句间关系判断、语言模型、自然语言生成),无论是研究还是应用,其预测准确率使用BERT后都可获得一定程度的效果提升。然而,由于BERT庞大的参数量和计算量,以及GPU高昂的成本,线上的应用一直是工业界的难题。因此澳门新葡萄新京数字团队采用了模型蒸馏的工程化方法,利用Teacher-Student框架将BERT模型的能力迁移,将大模型压缩成小模型,在准确率不受很大影响的情况下,提升模型的计算性能,降低对硬件的要求,用于智能客服、智能助理等线上运行的工业级项目中。
此外,澳门新葡萄新京数字在2019年将基于浙江交通人工智能应用研究院,在交通行业落地更多的NLP应用。同时,紧随人工智能多模融合的发展趋势,实现NLP技术与CV技术的有效结合,研发交通行业知识中台和路面病害识别算法,为交通基础设施运营的各项应用赋能,最终让人工智能技术能真正的产生应用价值。