BERT关系抽取之R-BERT模型

如题所述

第1个回答 2022-06-13

前期知识准备 ：RNN, CNN, BERT, SemEval-2010 Task 8数据集, F1值

关系分类是一个重要的NLP任务，其主要目标是提取出实体之间的关系。最先进的关系分类方法主要是基于CNN或RNN。最近，预训练BERT模型在许多NLP的分类和序列标注任务中都获得了非常好的结果。关系分类不同于其他NLP任务的主要原因是它既依赖于句子的信息，又依赖于两个目标实体的信息。在本文中，我们提出了一个用来解决关系分类任务的模型，它既利用了预训练的BERT语言模型，又结合来自目标实体的信息。我们定位目标实体并通过预训练结构传递信息，同时还结合了两个实体的相关编码。在SemEval-2010 Task 8任务上，相比目前的最优模型我们的方法获得了有效的提升。

R-BERT的预训练完全采用BERT模型，输入句子为单句，因此不需要添加[SEP]。其输出分为三部分，分别是[CLS]隐含状态向量和两个实体的隐含状态向量。作者认为第一部分可以保存句子的语义内容，后两个部分可以保存两个实体的信息。

其中，i ,j分别为第一个实体的首、尾字符位置；k,m分别为第二个实体的首、尾字符位置。神经网络中，权重系数和偏置系数均共享，即 W0 = W1 = W2，b0 = b1 = b2。

该数据集包含9类语义关系和一个Other类别，规定某关系如果不属于9类语义关系中的一种，则其属于Other类别。9类关系分别是：Cause-Effect、Component-Whole、Content-Container、Entity-Destination、Entity-Origin、Instrument-Angency、Member-Collection、Message-Topic和Product-Producer。数据集中共有10717个句子，8000个句子为训练集，2717个句子为测试集，每个句子包含e1和e2两个名词以及与该句子相关的关系类型。需要注意的是，关系是有向的，即关系（e1, e2）和关系（e2, e1）不同。

作者还在相同的数据集上比较了其他多种模型，其中包括：SVM、RNN、MVRNN、CNN+Softmax、FCM、CR-CNN、Attention CNN、Att-Pooling-CNN和Entity Attention Bi-LSTM，以F1值作为评测标准，其结果如下：

可见，R-BERT的F1值达到了89.25，相比于其他方法有着明显的优势。

为了探究BERT模型之外的部分对最后识别结果的影响，作者分别进行了如下额外实验，并得到结论：
（1）去除了实体前后的标识符，这种做法会使模型的F1值从89.25%降到87.98%，说明了标识符可以帮助提供实体信息。
（2）在BERT输出层仅使用[CLS]句子向量而不利用实体向量，这样会使得模型F1值从89.25%降到87.99%，说明主动明确实体信息对模型是有帮助的。

想办法给模型明确实体的位置对于关系抽取问题精度的提升是有帮助的。

https://zhuanlan.zhihu.com/p/78445887
https://blog.csdn.net/qq_36426650/article/details/96629835

相似回答

关系抽取Review(附上中文关系抽取的数据及代码)答：开源的关系抽取的代码： johnson7788/OpenNRE 数据： johnson7788/Chinese-Literature-NER-RE-Dataset 0. 代码没有做什么改变，作者提供了CNN，PCNN，和基于BERT的模型的关系抽取，结构不难，运行速度较快，测试结果在Readme最下方。中文的关系抽取数据较难获得，开源的 Chinese-Literature-NER-RE-Dataset存...

【NLP笔记】关系抽取,一步到位!答：论文的焦点在于解决表格数据中的关系抽取问题，作者提出了table-sequence encoder方法，它分别对表格和序列进行编码，对论文的主要贡献在于提升关系抽取的性能。接下来，我们将详细探讨模型的各个组成部分。Text Embedder部分采用了多层LSTM和BERT编码，将字符和单词嵌入结合。Table Encoder由MDRNN单元组成，每个单元...

Bert技术答：BERT是第一个基于微调的表示模型,它在一系列句子级和词级别的任务上实现了最先进的性能,优于许多具有特定任务架构的系统。 bert架构由两步实现:预训练和模型微调;在预训练阶段,基于无标注数据通过多轮预训练任务完成。在微调阶段,bert模型由预训练的参数进行初始化,然后由待下游的任务数据进行参数微调。 bert模型是...

一文了解|信息抽取答：关系抽取则进一步拓展了这个框架，通过揭示实体之间的关联，为知识发现和智能应用提供了强有力的支持。现代深度学习方法，如LSTM与CRF的结合，已成为NER的主流策略，它们考虑了词的特征和词性，而预训练模型如BERT的引入，则显著提升了识别的准确性。这些技术在推荐系统、新闻分类等领域大显身手，例如，...

常见ner解决方案简单汇总答：通过阅读理解任务的形式识别不同类型的实体，如人名、地址和机构名。NER_Span则是指针网络模型，通过两个全连接层分别标注实体的起始和结束位置。TPLinker_Plus则是从关系抽取任务中演变而来，同样关注token对的处理。最后，评测部分使用了BERT4torch框架，该框架长期维护，适合开发者使用，并鼓励star支持。

遇到bert预训练模型损坏,报错tensorflow.python.framework.errors_im...答：bert预训练模型chinese_L-12_H-768_A-12，不知怎么损坏，导致调用该模型进行关系抽取时报错：tensorflow.python.framework.errors_impl.DataLossError:然后我将一个新的bert预训练模型chinese_L-12_H-768_A-12替换掉就解决了。

NLP预训练模型3 -- 预训练任务优化(ERNIE、SpanBERT等)答：SpanBERT认为BERT的NSP反而会降低模型的performance，原因有二 3.2 实验结果 3.2.1 抽取式QA、指代消解、关系抽取等与span相关的任务 SpanBERT学习span信息，对抽取式QA、指代消解、关系抽取等与span相关的任务上帮助很大。下面为在抽取式QA SQuAD上的结果其中可见 3.2.2 span相关度不大任务文章...

大家正在搜

E—R模型转化关系模型在ER模型转换成关系模型的过程中 ER模型转化为关系模型例题将ER模型转换为关系数据模型 E_R模型转化成3NF的关系模式 ER图转换成关系模型 ER图怎么转换成关系模型数据库中ER图转关系模型关系模型R