东莞索诗妃儿服饰有限公司

东莞索诗妃儿服饰有限公司,设计、销售：服饰、服装、鞋、帽、袜、围巾、饰品、纺织...

企业列表

＂多模态数字内容生成＂的技术探索与应用实践

新闻列表

暂无新闻

推荐企业新闻

联系方式

联系人：招商部
电话：40082 60082

首页 > 新闻中心 > ＂多模态数字内容生成＂的技术探索与应用实践

新闻中心

＂多模态数字内容生成＂的技术探索与应用实践

发布时间：2024-11-09 浏览次数：1 返回列表

Tech

＂多模态数字内容生成＂的技术探索与应用实践

多模态数字内容生成，泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成，成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线，跟踪其成熟度和未来潜力。在京东，多模态内容生成有非常多且有趣的应用场景：基于图像生成的虚拟试衣、AI音乐生成、商品营销文案生成、AI写诗、风格化AI书法生成、文本与图像的相互生成等等。

本文将从自动文本摘要的角度，分享2020年京东AI研究院在多模态数字内容生成领域的一些有趣的探索和实践成果，以及这一研究方向的发展趋势和应用场景。

01

看自动文本摘要的技术演进历程

自动文本摘要（简称“自动文摘”）是自然语言处理领域中的一个传统任务，其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本或多模态输入，获得一段包含了其中最重要信息的简化文本。下图总结了自动文摘发展最近几年的发展趋势和代表性工作。

简单来说，自动文摘方法，包括抽取式自动文摘（Extractive Summarization）和生成式自动文摘（Abstractive Summarization) 两大类。抽取式自动文摘，通过提取给定文本中已存在的关键词、短语或句子组成摘要。而生成式自动文摘，通过对给定文本建立抽象的语意表示，利用自然语言生成技术，生成摘要。在2015年之前，自动文摘模型以抽取式模型为主，代表性方法包括基于图模型的LexRank算法和基于聚类的方法。此时的自动文摘数据集规模也比较小。2015年之后，随着技术的快速发展，生成式自动文摘模型受到了学者广泛的关注，并逐渐成为主流，代表性方法包括基于RNN的Seq2seq模型，基于复制机制的Pointer-Generator模型，和近期盛行的基于Transformer和预训练语言模型的自动文摘模型。多个大规模自动文摘数据集（Gigaword，CNN-Daily Mail，XSUM，MSMO等）极大地推动了自动文摘技术的发展。

02

聚焦自动文本摘要的四个趋势，看“多模态数字内容生成”的蓝海

技术趋势一：

预训练语言模型

预训练模型进一步证明了“熟读唐诗三百首，不会作诗也会吟”同样适用于机器。生成式预训练（Generative pre-training）一定是自动文本摘要未来发展的重要方向之一。MASS、UniLM、T5、ProphetNet等模型在摘要数据上一次次刷新性能上线。

技术趋势二：

Transformer已成为文本生成的主流模型

在Transformer之前，主流的文本生成模型是基于RNN的Seq2Seq+Attention的框架。现如今，基于Transformer的文本生成模型在多项文本生成任务取得了超越RNN模型的性能。

（1）改进Transformer模型

但基于Transformer的文本生成模型的输出层词向量，存在表示退化（Representation Degeneration）问题，词向量矩阵的2d表示分布于一个狭窄的锥形区域内（如下图a、c）。词向量矩阵奇异值下降过快，导致第一奇异值和其余奇异值之间差距过大，这样的分布很大程度上限制了词向量的表达能力。受GAN思想的启发，我们提出了一种谱控制的方法发表在ICLR2020。该方法首先对输出层词向量进行奇异值分解，然后在训练过程中通过先验分布，显式的控制奇异值的退化。最终在机器翻译任务上超越其他state-of-the-art模型。

Wang, et al. Improving Neural LanguageGeneration with Spectrum Control. ICLR 2020.

（2）改进Transformer中的Copy机制

Copy机制（复制机制）是生成式自动文摘模型的一个重要机制，通过复制机制，可以将输入文本中的关键词直接复制到输出摘要中。传统的复制机制是将解码注意力权重作为复制概率，并不能显式地识别出输入文本中哪些词是重要的词。TextRank算法是一种无监督图算法，被广泛用于关键词抽取中，其可以利用邻接矩阵计算输入文本中每个词的重要性得分。我们的ACL 2020的工作将抽取式的TextRank算法融入到生成式的自动文摘模型，首先利用Transformer模型构造自注意力图，将其作为TextRank算法中的邻接矩阵，通过随机游走，计算输入中每个文本单元的重要性得分，将其作为复制概率的先验，指导复制概率，期望那些重要性得分高的词的被复制概率比其他词更大，进而使模型生成的摘要含有更多的关键信息。实验发现，我们提出的自注意力指导复制概率的模型，能更准确地捕捉到这些关键词，生成更高质量的摘要。

Xu, et al. Self-Attention Guided Copy Mechanism forAbstractive Summarization. ACL 2020.

技术趋势三：融合知识的文本生成模型

模型加入知识指导，通过知识和数据两者联合，实现高质量的内容生成，近几年备受研究者关注。在为商品创作营销文案时，衡量一篇自动生成的商品营销文案的维度有很多，比如内容是否吸引人、是否流畅等等。但生成的营销文案不能含有事实性错误，这是文本生成模型的底线。比如对于一款“变频冰箱”，模型不能生成“定频”属性。为了提高文本的忠实度，我们在COLING 2020提出了一个基于异构数据的文本生成模型，利用商品的知识图谱和商品描述文本，生成商品营销文案，并从两个方面提升文本的忠实度。一是对商品知识图谱的商品属性信息进行建模，利用由粗到精的注意力机制和双向复制机制，使文本生成模型更充分的挖掘商品知识图谱中的属性信息。二是提出了一个属性信息Only-Copy机制，即在解码属性词时，仅允许从输入文本中复制。这保证了错误属性不会出现在生成的商品文案中。实验结果显示，无论是自动评价指标ROUGE，还是人工评价的一致性和可读性指标，我们提出的模型都领先于基线模型。

Yuan, et al. On the Faithfulness for E-commerce ProductSummarization. COLING 2020.

为了获取到更加完整的商品知识，我们在EMNLP 2020提出了一种多模态商品知识图谱补齐模型。通过观察，我们发现商品图片信息有助于商品外观类属性信息的提取，对一些和外观无关的功能属性作用是有限的。为了有效地使用商品图片信息，同时不引入噪音，我们设计了一种融合全局和局部的门控机制的跨模态注意力模块，使模型可以选择性地使用商品的视觉信息辅助补齐商品知识图谱，相比于纯文本模型取得了显著的提升。

Zhu, et al. Multimodal Joint Attribute Prediction and ValueExtraction for E-commerce Product. EMNLP 2020.

另外，我们在AAAI 2020还提出了一种融合关键词知识的文本摘要模型，该模型融合了抽取式摘要和生成式摘要的优点，博采众长，生成最佳摘要文本。当人们在输入句子来创作摘要时，往往会先找出输入句子中的关键词，然后组织语言将这些关键词串联起来，确保其流畅性和语法的正确性。相较于纯粹的抽取式自动文摘和生成式自动文摘，基于关键词指导的生成式自动文摘，更接近于人们创作摘要时的习惯。基于此，我们提出一个基于关键词指导的自动文摘模型，通过多任务学习的方式，我们同时训练输入文本的关键词提取模型和摘要生成模型，我们认为这两个任务均需要编码器的一项能力，即能够识别输入文本中的重要信息的能力，所以我们将这两个模型共享同一个编码器。在生成摘要时，我们首先利用关键词提取模型提取输入文本中的关键词，然后利用门控机制或层次化注意力机制，选择性地将原始输入文本和关键词信息进行融合，最终生成信息更集中的文本摘要。

Li, et al. Keywords-Guided Abstractive SentenceSummarization. AAAI 2020.

技术趋势四：多模态与知识联合建模

虽然单模态数字内容生成已取得了较大的成功。但人类很多时候是融合了听觉、视觉、文字、常识等多方面信息进行内容生成的。通过多模态弥补单一模态的信息缺失，实现语言消歧，可以进一步提高文本单模态模型的效果。

（1）文本内容生成：多模态输入单模态输出

为了生成一篇卖点突出、内容丰富、带有画面感的商品文案，我们提出了一个基于商品要素的多模态商品信息自动摘要模型，其可以根据商品的文本描述、商品图片信息，自动生成商品营销短文。商品的外观决定了用户对该商品的第一印象，商品的功能卖点最终决定了用户的购买行为。我们提出的多模态商品信息自动摘要系统，可以有效的整合商品的外观和功能信息，自动捕捉到该商品的特色卖点，并为其生成一段简短的营销短文。另外，不同的用户关注的商品要素往往是不同的，比如同一款手机，有的用户关注“内存”，而有的用户关注“屏幕”。在融合多模态信息的基础上，我们以商品要素为切入点，挖掘商品最具卖点的要素，并从商品要素维度控制输出文本的信息冗余度、可读性，最终生成一段简洁凝练、卖点突出、流畅、合规的商品营销短文。

Li, et al. Aspect-Aware Multimodal Summarization for ChineseE-Commerce Products. AAAI 2020.

同样，多模态信息的有效融合，也可以有效提高新闻摘要的生成质量。因为新闻配图往往包含了新闻事件的关键信息，比如事件发生的地点和重要的人物或对象等，可对文本信息进行有效的补充。对此，我们在COLING 2020提出了一种多模态选择性编码机制，通过融合文本和多粒度的图像信息，包括图像的全局特征、局部特征和实体对象特征，构造多模态选择模块，借此滤除输入文本中的次要信息，得到更有效的输入文本编码特征，进而有助于解码器生成更高质量的文本摘要。

Li, et al. Multimodal Sentence Summarization via MultimodalSelective Encoding. COLING 2020.

（2）多模态内容生成：多模态输入多模态输出

传统的多模态摘要模型，往往仅使用目标文本作为监督信号，而忽视了图像信息，导致模态偏差问题，即模型会倾向于优化文本生成的质量，而忽视了图片的挑选过程。我们在AAAI 2020提出了一种多模态基准指导的多模态自动文摘方法，改进了多模态摘要训练的目标函数，在文本损失函数的基础上增加图片选择的损失函数。实验发现，我们提出的模型对于图片的挑选质量得到了显著的改善，文本生成质量也有所改进，最终可以生成更高质量的图文摘要。

Zhu, et al. Multimodal Summarization with Guidance ofMultimodal Reference. AAAI 2020.

03

有趣的实践：从国际学术论文到全球工业级应用

基于上述一系列创新技术，我们研发了面向商品的多模态文案创作工业级产品“品创”。“品创”四大亮点：

1. 生成卖点突出、文案流畅、忠实度高、风格多样且有创意的AI商品文案，其人工审核通过率超过90%；

2. 目前已支持3000多个品类，广泛应用于京东发现好货频道、社交电商京粉、京小智、搭配购、AI直播带货等内外部客户的实际场景中；

3. “品创”创作的文案曝光点击率，高出专业写手平均水平40%，同时，降低商品文案创作成本超过90%；