Tech
多模态数字内容生成,泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成,成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。在京东,多模态内容生成有非常多且有趣的应用场景:基于图像生成的虚拟试衣、AI音乐生成、商品营销文案生成、AI写诗、风格化AI书法生成、文本与图像的相互生成等等。
本文将从自动文本摘要的角度,分享2020年京东AI研究院在多模态数字内容生成领域的一些有趣的探索和实践成果,以及这一研究方向的发展趋势和应用场景。
01
看自动文本摘要的技术演进历程
自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本或多模态输入,获得一段包含了其中最重要信息的简化文本。下图总结了自动文摘发展最近几年的发展趋势和代表性工作。
简单来说,自动文摘方法,包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization) 两大类。抽取式自动文摘,通过提取给定文本中已存在的关键词、短语或句子组成摘要。而生成式自动文摘,通过对给定文本建立抽象的语意表示,利用自然语言生成技术,生成摘要。在2015年之前,自动文摘模型以抽取式模型为主,代表性方法包括基于图模型的LexRank算法和基于聚类的方法。此时的自动文摘数据集规模也比较小。2015年之后,随着技术的快速发展,生成式自动文摘模型受到了学者广泛的关注,并逐渐成为主流,代表性方法包括基于RNN的Seq2seq模型,基于复制机制的Pointer-Generator模型,和近期盛行的基于Transformer和预训练语言模型的自动文摘模型。多个大规模自动文摘数据集(Gigaword,CNN-Daily Mail,XSUM,MSMO等)极大地推动了自动文摘技术的发展。
02
聚焦自动文本摘要的四个趋势,看“多模态数字内容生成”的蓝海
技术趋势一:
预训练语言模型
预训练模型进一步证明了“熟读唐诗三百首,不会作诗也会吟”同样适用于机器。生成式预训练(Generative pre-training)一定是自动文本摘要未来发展的重要方向之一。MASS、UniLM、T5、ProphetNet等模型在摘要数据上一次次刷新性能上线。
技术趋势二:
Transformer已成为文本生成的主流模型
在Transformer之前,主流的文本生成模型是基于RNN的Seq2Seq+Attention的框架。现如今,基于Transformer的文本生成模型在多项文本生成任务取得了超越RNN模型的性能。
(1)改进Transformer模型
但基于Transformer的文本生成模型的输出层词向量,存在表示退化(Representation Degeneration)问题,词向量矩阵的2d表示分布于一个狭窄的锥形区域内(如下图a、c)。词向量矩阵奇异值下降过快,导致第一奇异值和其余奇异值之间差距过大,这样的分布很大程度上限制了词向量的表达能力。受GAN思想的启发,我们提出了一种谱控制的方法发表在ICLR2020。该方法首先对输出层词向量进行奇异值分解,然后在训练过程中通过先验分布,显式的控制奇异值的退化。最终在机器翻译任务上超越其他state-of-the-art模型。
Wang, et al. Improving Neural LanguageGeneration with Spectrum Control. ICLR 2020.
(2)改进Transformer中的Copy机制
Copy机制(复制机制)是生成式自动文摘模型的一个重要机制,通过复制机制,可以将输入文本中的关键词直接复制到输出摘要中。传统的复制机制是将解码注意力权重作为复制概率,并不能显式地识别出输入文本中哪些词是重要的词。TextRank算法是一种无监督图算法,被广泛用于关键词抽取中,其可以利用邻接矩阵计算输入文本中每个词的重要性得分。我们的ACL 2020的工作将抽取式的TextRank算法融入到生成式的自动文摘模型,首先利用Transformer模型构造自注意力图,将其作为TextRank算法中的邻接矩阵,通过随机游走,计算输入中每个文本单元的重要性得分,将其作为复制概率的先验,指导复制概率,期望那些重要性得分高的词的被复制概率比其他词更大,进而使模型生成的摘要含有更多的关键信息。实验发现,我们提出的自注意力指导复制概率的模型,能更准确地捕捉到这些关键词,生成更高质量的摘要。
Xu, et al. Self-Attention Guided Copy Mechanism forAbstractive Summarization. ACL 2020.
技术趋势三:融合知识的文本生成模型
模型加入知识指导,通过知识和数据两者联合,实现高质量的内容生成,近几年备受研究者关注。在为商品创作营销文案时,衡量一篇自动生成的商品营销文案的维度有很多,比如内容是否吸引人、是否流畅等等。但生成的营销文案不能含有事实性错误,这是文本生成模型的底线。比如对于一款“变频冰箱”,模型不能生成“定频”属性。为了提高文本的忠实度,我们在COLING 2020提出了一个基于异构数据的文本生成模型,利用商品的知识图谱和商品描述文本,生成商品营销文案,并从两个方面提升文本的忠实度。一是对商品知识图谱的商品属性信息进行建模,利用由粗到精的注意力机制和双向复制机制,使文本生成模型更充分的挖掘商品知识图谱中的属性信息。二是提出了一个属性信息Only-Copy机制,即在解码属性词时,仅允许从输入文本中复制。这保证了错误属性不会出现在生成的商品文案中。实验结果显示,无论是自动评价指标ROUGE,还是人工评价的一致性和可读性指标,我们提出的模型都领先于基线模型。
Yuan, et al. On the Faithfulness for E-commerce ProductSummarization. COLING 2020.
为了获取到更加完整的商品知识,我们在EMNLP 2020提出了一种多模态商品知识图谱补齐模型。通过观察,我们发现商品图片信息有助于商品外观类属性信息的提取,对一些和外观无关的功能属性作用是有限的。为了有效地使用商品图片信息,同时不引入噪音,我们设计了一种融合全局和局部的门控机制的跨模态注意力模块,使模型可以选择性地使用商品的视觉信息辅助补齐商品知识图谱,相比于纯文本模型取得了显著的提升。
Zhu, et al. Multimodal Joint Attribute Prediction and ValueExtraction for E-commerce Product. EMNLP 2020.
另外,我们在AAAI 2020还提出了一种融合关键词知识的文本摘要模型,该模型融合了抽取式摘要和生成式摘要的优点,博采众长,生成最佳摘要文本。当人们在输入句子来创作摘要时,往往会先找出输入句子中的关键词,然后组织语言将这些关键词串联起来,确保其流畅性和语法的正确性。相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘,更接近于人们创作摘要时的习惯。基于此,我们提出一个基于关键词指导的自动文摘模型,通过多任务学习的方式,我们同时训练输入文本的关键词提取模型和摘要生成模型,我们认为这两个任务均需要编码器的一项能力,即能够识别输入文本中的重要信息的能力,所以我们将这两个模型共享同一个编码器。在生成摘要时,我们首先利用关键词提取模型提取输入文本中的关键词,然后利用门控机制或层次化注意力机制,选择性地将原始输入文本和关键词信息进行融合,最终生成信息更集中的文本摘要。
Li, et al. Keywords-Guided Abstractive SentenceSummarization. AAAI 2020.
技术趋势四:多模态与知识联合建模
虽然单模态数字内容生成已取得了较大的成功。但人类很多时候是融合了听觉、视觉、文字、常识等多方面信息进行内容生成的。通过多模态弥补单一模态的信息缺失,实现语言消歧,可以进一步提高文本单模态模型的效果。
(1)文本内容生成:多模态输入单模态输出
为了生成一篇卖点突出、内容丰富、带有画面感的商品文案,我们提出了一个基于商品要素的多模态商品信息自动摘要模型,其可以根据商品的文本描述、商品图片信息,自动生成商品营销短文。商品的外观决定了用户对该商品的第一印象,商品的功能卖点最终决定了用户的购买行为。我们提出的多模态商品信息自动摘要系统,可以有效的整合商品的外观和功能信息,自动捕捉到该商品的特色卖点,并为其生成一段简短的营销短文。另外,不同的用户关注的商品要素往往是不同的,比如同一款手机,有的用户关注“内存”,而有的用户关注“屏幕”。在融合多模态信息的基础上,我们以商品要素为切入点,挖掘商品最具卖点的要素,并从商品要素维度控制输出文本的信息冗余度、可读性,最终生成一段简洁凝练、卖点突出、流畅、合规的商品营销短文。
Li, et al. Aspect-Aware Multimodal Summarization for ChineseE-Commerce Products. AAAI 2020.
同样,多模态信息的有效融合,也可以有效提高新闻摘要的生成质量。因为新闻配图往往包含了新闻事件的关键信息,比如事件发生的地点和重要的人物或对象等,可对文本信息进行有效的补充。对此,我们在COLING 2020提出了一种多模态选择性编码机制,通过融合文本和多粒度的图像信息,包括图像的全局特征、局部特征和实体对象特征,构造多模态选择模块,借此滤除输入文本中的次要信息,得到更有效的输入文本编码特征,进而有助于解码器生成更高质量的文本摘要。
Li, et al. Multimodal Sentence Summarization via MultimodalSelective Encoding. COLING 2020.
(2)多模态内容生成:多模态输入多模态输出
传统的多模态摘要模型,往往仅使用目标文本作为监督信号,而忽视了图像信息,导致模态偏差问题,即模型会倾向于优化文本生成的质量,而忽视了图片的挑选过程。我们在AAAI 2020提出了一种多模态基准指导的多模态自动文摘方法,改进了多模态摘要训练的目标函数,在文本损失函数的基础上增加图片选择的损失函数。实验发现,我们提出的模型对于图片的挑选质量得到了显著的改善,文本生成质量也有所改进,最终可以生成更高质量的图文摘要。
Zhu, et al. Multimodal Summarization with Guidance ofMultimodal Reference. AAAI 2020.
03
有趣的实践:从国际学术论文到全球工业级应用
基于上述一系列创新技术,我们研发了面向商品的多模态文案创作工业级产品“品创”。“品创”四大亮点:
1. 生成卖点突出、文案流畅、忠实度高、风格多样且有创意的AI商品文案,其人工审核通过率超过90%;
2. 目前已支持3000多个品类,广泛应用于京东发现好货频道、社交电商京粉、京小智、搭配购、AI直播带货等内外部客户的实际场景中;
3. “品创”创作的文案曝光点击率,高出专业写手平均水平40%,同时,降低商品文案创作成本超过90%;