您好,欢迎来到爱问旅游网。
搜索
您的当前位置:首页论文笔记:Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

论文笔记:Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

来源:爱问旅游网

1. 概要 

        本文提出Dense-Sparse Phrase Index (DENSPI),一个用于实时开放域 QA 的可索引的查询无关的短语表示模型。短语表示事先离线存储,推理时,输入问题被映射到相同的表示空间,并检索具有最大内积搜索的短语作为答案。短语表示结合了密集向量和稀疏向量。

2. 短语和问题嵌入

2.1 短语的密集嵌入向量 

使用

其中,

论文使用BERT-large将每篇文档中的tokens

1)将每个token的密集向量分为四部分:。

2)将短语开始位置的作为,将短语结束位置的作为,将的点积作为。

3)最终,

2.2 短语的稀疏嵌入向量

 使用bigrams的TF-IDF构建稀疏向量,将得到的稀疏向量归一化,以便其能用于计算余弦相似度。 

2.3 问题嵌入模型

问题的嵌入同样由密集向量和稀疏向量构成, ,其中稀疏向量由上述TF-IDF模型获得,密集向量取自BERT cls位置的输出:

3.训练、索引和搜索

为了训练密集嵌入模型,论文在训练期间为每个问题提供黄金段落(即包含答案短语的段落),而不是直接在整个维基百科上进行优化,因为这是计算不可行的。在给出问题密集嵌入和短语密集嵌入后,我们的优化目标可以整理成以下公式:

令 ,,

 损失函数定义为:

论文中指出,由于损失函数会产生较小的梯度,所以额外添加了两个辅助损失函数进行训练:

对应着开始位置的损失,结束位置的损失以相同的方式给出,因此,最终损失由下式给出:

论文指出,维基百科包含大约 30 亿个token,因此枚举长度≤20 的所有潜在答案短语将导致大约 600 亿个短语。假设每个短语密集向量以 961 维的f loat32 存储,则需要 240 TB 的存储空间(600 亿乘以 961 个维度乘以每个维度 4 个字节)。因此,论文采用了三种技术来将索引的大小减少到 1.2 TB,而不会牺牲太多的准确性。这三种技术分别是Pointer、Filtering和Quantization。

1)Pointer

由于每个短语向量是  和  的串联(以及一个标量 ,但它占用的空间很小),因此许多短语共享相同的开始或结束向量。因此,可以地存储开始和结束向量,并且只存储指向这些向量的指针以用于短语表示。这有效地将内存占用从 240 TB 减少到 12 TB。

2)Filtering

在每个开始和结束向量的顶部训练一个简单的二元分类器,用实际答案进行监督(不观察问题)。首先排除不太可能是答案短语的潜在开始或结束位置的向量,从而进一步将内存占用从 12 TB 减少到 5 TB。

3)Quantization

使用标量量化将float32转为int8,因此最终的内存消耗为 1.2 TB。

论文指出,虽然使用稀疏最大内积搜索算法直接搜索最佳答案短语是理想的,但找不到一个好的开源实现,可以扩展到数十亿个向量并同时处理短语向量的密集和稀疏部分。因此,论文考虑了三种近似策略,分别是sparse-first search (SFS)、dense-first search (DFS)以及它们的混合方法。

1)sparse-first search

首先,根据稀疏相似性(论文没有给出具体使用什么算法)先检索到top 个相关文档,然后再对检索到的文档中的所有短语执行精确搜索。这类似于大多数基于管道的 QA 系统。

2)dense-first search

首先对密集部分进行搜索以检索top 个短语向量,然后通过相应的稀疏向量对它们重新排序,其中,密集向量相似性部分计算使用开源的且大规模友好的相似性搜索包faiss。

3)混合方法

上述两种方法都执行一次,再对两种方法返回的结果进行重排序。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务