当前位置:Gxlcms > 数据库问题 > (已实现)相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

(已实现)相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

时间:2021-07-01 10:21:17 帮助过:3人阅读

 

  【量化数据】我选的是MD5->Long做量化

五笔 -8683246507546018072
拼音 5720075168044685354
笔画 6444854990336207024
其它 -4797408270696495584
英盘 -1741849883950345011
美盘 4116094244106799890
法盘 5071717547464226258

 


      【查询】 根据实际需求(即相关度要求)仅仅只需要取以下列表中的一个值做为查询条件。即,通过分词-做词行向量排列,特征列向量排列将文章映射成ID,这样我们

就可以通过 Select .. From T Where Long1= Value 实现文章相关度的查询【根据相关度要求可随时改变查询字段LongN】

   二字词   Dictionary<int, long> R1 = GetWordSecurity(words, 1);

+  [0] {[1, -2963171339501332718]} System.Collections.Generic.KeyValuePair<int,long>
+  [1] {[2, -2238391517209811048]} System.Collections.Generic.KeyValuePair<int,long>
+  [2] {[3, 4966089295467037960]} System.Collections.Generic.KeyValuePair<int,long>
+  [3] {[4, -6281813915328659238]} System.Collections.Generic.KeyValuePair<int,long>
+  [4] {[5, 922666897348189770]} System.Collections.Generic.KeyValuePair<int,long>
+  [5] {[6, 3978225284094340343]} System.Collections.Generic.KeyValuePair<int,long>
+  [6] {[7, -8610574661558066372]} System.Collections.Generic.KeyValuePair<int,long>
Dictionary<int, long> R2 = GetWordSecurity(words, 2);

 

 以上测试在今天下午全部完成编码及测试,现在我的系统正在做数据抓取和量化处理,初步预计数据集八千万行左右,做了好几年程序,这是咱第一次处理超百万行数据呢。
       

(已实现)相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

标签:

人气教程排行