技术综述|文本分类任务的数据增强方法概述

来源: 黄翰/

华南理工大学

1965

2022-09-17 12:58:22

2022-09-17

深度学习模型是一种数据驱动的算法模型，数据的质量和数量将在很大程度上影响模型性能。对于深度学习而言，大量高质量的数据是最重要的部分。然而在实际应用场景中，大规模数据收集和高质量数据标注的成本很高。在项目开发或学术研究的起始阶段，开发人员和研究者经常会遇到高质量标注数据不足的情况，此时不妨运用数据增强（Data Augmentation）方法助力模型训练。

数据增强能够使有限的数据产生等价于更多数据的价值，是缓解深度学习模型训练数据稀疏的一种有效策略，能够有效提高网络模型的泛化能力。目前，数据增强方法已被广泛应用在图像领域的多个任务中。常见的图像数据增强方法有对图像进行旋转、翻转、裁剪、调整缩放比例、添加高斯噪声等，这些操作都不会改变图像原本的含义。然而，由于文本是由长度不固定的离散字符组成的，简单地删除或交换某个单词都可能改变句子的语义，因此数据增强方法在自然语言处理任务上的应用更难实现。

针对自然语言处理领域的文本分类任务，当前主流的数据增强方法通常会从语义替换、噪声增强、样例生成等角度对现有数据进行增强。

图1 针对文本分类任务的数据增强方法示例

一、基于语义替换的方法

基于语义替换的数据增强方法在不改变句子语义的情况下，对原始语料进行改变。例如，基于词典的数据增强方法会利用同义词和上义词词典替换原文中的单词^[1]。对于通用领域的语料，WordNet是一个有效的同义词词汇库，使用者可以通过名词、动词、形容词和副词的同义词集合实现对原语料中非停用词的替换。

此外，采用语义嵌入的方式使用深度学习模型预训练的词向量可以克服基于词典的方法中替换范围和词性的限制。这类方法基于Glove、Word2Vec等预训练词向量模型，将原始词替换为向量空间中最接近的词。

图2 基于语义嵌入的数据增强方法示例

随着BERT等预训练语言模型的兴起，利用遮罩语言模型（Mask Language Model, MLM）进行数据增强也具有优异的性能表现。MLM方法通过预训练获得了基于上下文预测文本中遮掩词的能力，考虑了上下文语义，缓解了词语歧义的问题。

图3 基于遮罩语言模型的数据增强方法示例

对于特定领域的语料，使用基于启发式规则的方式进行数据增强更加可靠。一部分研究依靠现有词典或固定的启发式规则生成单词级和短语级的替换词；而另一部分研究将符合启发式规则的原始句子进行句子级别的转换，例如依赖句法树解析将主动句转换为被动句^[2]。

随着机器翻译模型的发展和在线翻译API调用的普及，机器翻译作为数据增强方法也逐渐受到欢迎。其中，还原翻译方法是指将原始文档翻译成其他语言，然后再翻译回原始语言，以获得原始语言的新文本。与单词级别的方法不同，还原翻译不直接替换单个单词，而是以句子生成的方式重写整个句子。同样的，在多语言场景中，单向翻译也是有效的增强方法。与反向翻译不同的是，单向翻译直接将原文翻译成其他语言一次，而不将其翻译回原文。对于给定的输入语句，一些方法直接使用Seq2Seq模型生成新的句子，并以此训练模型输出更多样化的表达^[3]。

二、基于噪声的方法

基于语义替换的数据增强方法会使增强数据的语义尽可能与原始数据相似，而基于噪声的方法则在训练时添加了不会严重影响语义的微弱噪声，以提升模型的泛化性能。人类可以通过对语法和先验知识大大降低弱噪声对语义理解的影响，但这种噪声可能会给模型带来挑战。因此，该类方法能够在扩大训练数据量的同时，提高模型的鲁棒性。

自然语言的语义对文本的顺序很敏感，但是对人而言轻微顺序变化后的句子并不会影响对语义的理解。因此，在合理范围内对单词甚至句子之间的随机交换可以作为一种数据增强方法，例如打乱文档内句子顺序以增强文档文本。同样的，根据下游任务特征，随机删除句子中的单词或删除文档中的句子，也能够提升模型对于完整语料的识别效果^[4]。

与基于语义替换的方法类似，使用外部资源进行部分字符串替换也是常见的基于噪声的数据增强方法。对于与标签无关的词语或者具有相同标签语料的句子，可以通过将单词随机插入到句子中或将句子插入到文档中以提升模型的分类效果。例如使用英语中常见的拼写错误列表，生成包含常见拼写错误的增强文本，或者使用与任务相关的语料和关键句对原文本内容进行替换等。

图4 基于噪声的数据增强方法示例

三、基于样例生成的方法

基于样例生成的数据增强方法将根据文本特征和任务特征进行新数据的生成。与基于语义替换的增强方法类似，样例生成使用规则和预训练模型来生成增强数据。不同之处在于，基于样例生成的方法是面向特定任务的，需要标签和数据格式等任务信息。样例生成方法不仅可以确保增强数据的有效性，还可以提升数据的多样性。该类方法基于人工启发式规则和训练好的模型来满足下游任务的需求，并且可以根据具体的任务需求进行设计，因此灵活性更强，但是实现难度更大。

图5 基于样例生成的数据增强方法示例

首先，基于样例生成的增强方法可以基于规则直接生成新的增强数据。比方说，领域专家可以根据任务特点，使用自然语言处理工具和启发式规则设计增强数据的生成方法。其中，新样本的标签通常由规则确定，并确保具备有效性。例如在识别数学单词问题的任务中，该类方法将对数学公式进行等价变换以生成新的数学问题。

Seq2Seq模型同样被用于基于样例生成的数据增强方法，即训练一个从目标文本到原文本的模型，构建伪平行的句子。预训练语言模型学习了大规模语料中的知识，因此在样例生成中同样具有良好的表现。例如，一些研究采用MLM模型构建遮罩模型和重建模型，生成与原始数据具有差异化的数据。此外，还有一些研究使用GPT自回归模型生成对话文本^[5]。

以上简要介绍了目前文本分类任务主流的数据增强方法。在文本分类任务中，保留对分类重要词语的语义相对简单，因此数据增强在文本分类任务的使用最为广泛。除了文本分类任务，以上提及的数据增强方法同样可以应用于文本生成、结构化预测等自然语言处理任务中^[6]。大家可以根据自己的任务需求，灵活应用和组合这些数据增强方法。如果生成的增强数据质量比较高，可以直接用于训练模型；而如果增强数据质量不高，通常可以使用增强数据进行预训练并在原始数据上对模型进行微调。

参考文献

[1] X. Zhang, J. Zhao, Y. LeCun, "Character-level convolutional networks for text classification," Advances in neural information processing systems, vol. 28, pp. 1-9, 2015.

[2] J. Min, R. T. McCoy, D. Das, E. Pitler and T. Linzen, "Syntactic data augmentation increases robustness to inference heuristics," arXiv preprint arXiv: 2004.11999, 2020.

[3] D. Liu, Y. Gong, J. Fu, Y. Yan, J. Chen, J. Lv, N. Duan and M. Zhou, "Tell me how to ask again: Question data augmentation with controllable rewriting in continuous space," in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020, pp. 5798-5810.

[4] S. Longpre, Y. Wang, C. DuBois, "How effective is task-agnostic data augmentation for pretrained transformers," in Findings of the Association for Computational Linguistics: EMNLP, 2020, pp. 4401-4411.

[5] N. Ng, K. Cho, M. Ghassemi, "SSMBA: Self-supervised manifold based data augmentation for improving out-of-domain robustness," arXiv preprint arXiv: 2009.10195, 2020.

[6] J. Lun, J. Zhu, Y. Tang and M.Yang, "Multiple data augmentation strategies for improving performance on automatic short answer scoring," in Proceedings of the AAAI Conference on Artificial Intelligence, 2020, vol. 34, no. 9, pp. 13389-13396.

[7] 一种时隙异构知识图谱的表示与存储方法（202011311362.4）发明人：黄翰、周友华

[8] 一种面向领域问答的知识图谱构建方法（202011036897.5）发明人：黄翰、陈芳宇、李刚、徐杨、郝志峰

[9] 最优加权有向图的流形搜索方法（202011468252.9）发明人：黄翰、刘一鸣、刘方青、郝志峰

[10] 一种未标注文本的半监督分类方法（202011537909.2）发明人：黄翰、梁展宁

[11] 基于文本认知的自动分析建模方法、系统、装置及介质（202011437720.6）发明人：黄翰、刘雨瑶、王业超、黄俊聪

总编：黄翰

责任编辑：袁中锦

文字：殷佳飞

图片：殷佳飞、袁中锦

校稿：何莉怡

时间：2022年8月17日

登录用户可以查看和发表评论，请前往登录或注册。