您的当前位置：首页论文笔记：Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

论文笔记：Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

来源：爱问旅游网

1. 概要

本文提出Dense-Sparse Phrase Index (DENSPI)，一个用于实时开放域 QA 的可索引的查询无关的短语表示模型。短语表示事先离线存储，推理时，输入问题被映射到相同的表示空间，并检索具有最大内积搜索的短语作为答案。短语表示结合了密集向量和稀疏向量。

2. 短语和问题嵌入

2.1 短语的密集嵌入向量

使用

其中，

论文使用BERT-large将每篇文档中的tokens

1）将每个token的密集向量分为四部分：。

2）将短语开始位置的作为，将短语结束位置的作为，将的点积作为。

3）最终，

2.2 短语的稀疏嵌入向量

使用bigrams的TF-IDF构建稀疏向量，将得到的稀疏向量归一化，以便其能用于计算余弦相似度。

2.3 问题嵌入模型

问题的嵌入同样由密集向量和稀疏向量构成，，其中稀疏向量由上述TF-IDF模型获得，密集向量取自BERT cls位置的输出：

。

3.训练、索引和搜索

为了训练密集嵌入模型，论文在训练期间为每个问题提供黄金段落（即包含答案短语的段落），而不是直接在整个维基百科上进行优化，因为这是计算不可行的。在给出问题密集嵌入和短语密集嵌入后，我们的优化目标可以整理成以下公式：

令，，

损失函数定义为：

论文中指出，由于损失函数会产生较小的梯度，所以额外添加了两个辅助损失函数进行训练：

对应着开始位置的损失，结束位置的损失以相同的方式给出，因此，最终损失由下式给出：

论文指出，维基百科包含大约 30 亿个token，因此枚举长度≤20 的所有潜在答案短语将导致大约 600 亿个短语。假设每个短语密集向量以 961 维的f loat32 存储，则需要 240 TB 的存储空间（600 亿乘以 961 个维度乘以每个维度 4 个字节）。因此，论文采用了三种技术来将索引的大小减少到 1.2 TB，而不会牺牲太多的准确性。这三种技术分别是Pointer、Filtering和Quantization。

1）Pointer

由于每个短语向量是和的串联（以及一个标量，但它占用的空间很小），因此许多短语共享相同的开始或结束向量。因此，可以地存储开始和结束向量，并且只存储指向这些向量的指针以用于短语表示。这有效地将内存占用从 240 TB 减少到 12 TB。

2）Filtering

在每个开始和结束向量的顶部训练一个简单的二元分类器，用实际答案进行监督（不观察问题）。首先排除不太可能是答案短语的潜在开始或结束位置的向量，从而进一步将内存占用从 12 TB 减少到 5 TB。

3）Quantization

使用标量量化将float32转为int8，因此最终的内存消耗为 1.2 TB。

论文指出，虽然使用稀疏最大内积搜索算法直接搜索最佳答案短语是理想的，但找不到一个好的开源实现，可以扩展到数十亿个向量并同时处理短语向量的密集和稀疏部分。因此，论文考虑了三种近似策略，分别是sparse-first search (SFS)、dense-first search (DFS)以及它们的混合方法。

1）sparse-first search

首先，根据稀疏相似性（论文没有给出具体使用什么算法）先检索到top 个相关文档，然后再对检索到的文档中的所有短语执行精确搜索。这类似于大多数基于管道的 QA 系统。

2）dense-first search

首先对密集部分进行搜索以检索top 个短语向量，然后通过相应的稀疏向量对它们重新排序，其中，密集向量相似性部分计算使用开源的且大规模友好的相似性搜索包faiss。

3）混合方法

上述两种方法都执行一次，再对两种方法返回的结果进行重排序。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文