时间:2021-07-01 10:21:17 帮助过:18人阅读
Spark查询仅仅需用户输入keyword就可以,而无需输入复杂的图结点关系就能得到查询结果。但其仅仅能提取字符串相似匹配,通过改动能够使其支持其他转换。
NeMa支持图结构和字符串相似度匹配(Jaccard)。
4.1.1 度量函数
下述公式中v表示结点,e表示边,φ(·)表示匹配,比如φ(v)表示图数据库G中与查询图v中匹配的结点。若v能够经过第i个转换函数变为φ(v),则fi(v,φ(v)) = 1。反之φ(v) = 0。
结点匹配代价:
边匹配代价:
图匹配函数:
且易得图匹配函数P的值越小,与Q匹配的图φ(Q)的质量越高,即查询结果应该为P值最小的k个子图。
4.1.2 參数确定
令W={α1, α2, … ; β1, β2…},则
当中T表示训练集。
4.1.3 冷启动
令启动的目的在于怎样生成好的查询训练集,从而能够得到好的匹配函数的參数。冷启动步骤:
(1) 从图数据库中随机选择一些子图作为查询模板Q’;
(2) 将查询模板中的一些结点和边用转换函数进行转化得到查询Q。
(3) 提取和Q精确匹配的子图Qe;
(4) (Q, Q’)与(Q, Qe)组成训练集。
一般的图查询均属于NP-hard问题,其能够归约为子图同构问题,从而证明该问题是NP-hard的。
因此本文设计了两个启示式用于求解该问题。
4.2.1 启示式1
将图匹配的代价累加到一个结点上,则每一个结点的匹配得分能够代表包含该节点在内的图匹配代价。
每一个结点计算公式:
当中mji(t)(ui)表示第t次迭代uj结点对节点ui匹配贡献的得分。
该公式的直观理解參考图4-1。当中a、b中左边均表示数据库,右边表示查询图。
图4-1 启示式1的直观意义
4.2.2 启示式2
利用启示式1进行计算时须要计算大量的结点。由结点匹配代价计算公式可得。对于随意的查询结点v经过同样的转换函数匹配代价同样。基于此将经过同一个结点转换的结点浓缩为一个结点计算,则能够有效降低结点得分的计算个数。由浓缩结点组成的图成为概要图。若查询图中两个结点之间存在边,则连接概要图中相应的结点,而与图数据库无关。当中,边的匹配代价为图数据库中全部这类边的匹配代价的上界。
基于这样的发现问题的求解步骤为:
(1) 构造概要图;
(2) 在概要图上利用启示式1计算;
(3) 利用概要图中计算出的结果求原图中与之相应子图的得分。
循环运行直到找到k个结果。
以上为我对论文Schemaless and Structureless Graph Querying-vldb2014的个人理解。当然当中仅仅介绍了论文中的主要内容。具体的解说请查看论文解说的ppt,地址http://download.csdn.net/detail/woniu317/7391539。
基于多种转换语义的图数据库查询
标签:部分 摘要 计算公式 strong 意义 enter 归约 训练 内容