当前位置:Gxlcms > mysql > zg手册之Mysql开发(1)--中文全文检索插件开发_MySQL

zg手册之Mysql开发(1)--中文全文检索插件开发_MySQL

时间:2021-07-01 10:21:17 帮助过:7人阅读

目前的中文检索查询方案

  1. 基于数据库的模糊匹配(运行时字符串查找,查询速度比较慢)

  2. 专有的全文检索引擎(sphinx, lucene等)


我曾经遇到一个项目,数据量在百万级别,不需要高级的全文检索方式(没有复杂的匹配需求,没有复杂的过滤条件),只是需要根据关键词检索数据,当时采用的 mysql 全文检索插件的方式来满足的项目需求。


Mysql 的中文全文检索插件开发

  1. Mysql 的 MyISAM 引擎支持第三方的全文检索插件,可以用第三方插件替换默认的全文检索插件。

  2. 在全文检索插件中提供中文分词算法,告诉MyISAM如何分词,并创建索引。

  3. 查询的时候通过插件分词,查询索引快速定位数据记录。


插件开发的具体方法

主要通过代码注释描述插件的开发方法,创建文件 tft.c,代码如下

#include #include // mysql 插件必须包含的头文件#include // 这是我自己写的一个分词库,没有什么优化,可以替换为其他开源的实现。#include #include #if !defined(__attribute__) && (defined(__cplusplus) /|| !defined(__GNUC__)  || __GNUC__ == 2 && __GNUC_MINOR__ < 8)#define __attribute__(A)#endif// 进行插件内部状态统计的变量static long number_of_calls= 0; /* 统计调用的次数 *//*  tft 接口:  插件的初始化,卸载函数:  - tft_plugin_init()  - tft_plugin_deinit()  解析接口:  - tft_parse()  - tft_init()  - tft_deinit()*/// 我开发的分词库依赖的词库static char* g_s_dictFile="/home/dev/work/ppr/tft/dict_chs.dic";// 分词库的 handlerstatic st_darts* g_s_pDarts = NULL;/*  插件被加载时的初始化函数  返回值    0     成功    1     失败*/static int tft_plugin_init(void *arg __attribute__((unused))){  // 分词器的初始化代码  g_s_pDarts = stDartsLoad(g_s_dictFile);  stLog("load tft plugin succ.");  return(0);}/*  插件被卸载时的资源释放函数  返回值    0     成功    1     失败*/static int tft_plugin_deinit(void *arg __attribute__((unused))){  // 卸载分词器  stDartsFree(g_s_pDarts);  stLog("free tft plugin succ.");  return(0);}/*  查询开始时运行的代码,目前不需要特殊处理 */static int tft_init(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){  return(0);}/*  查询结束时运行的代码,目前不需要特殊处理 */static int tft_deinit(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){  return(0);}/*  返回一个提取的词给 server  参数:      param              插件的解析环境      word               词      len                词长度  描述:    如果传递了 boolean 模式,则为这个词填充 boolean 元数据。    创建索引的时候调用这个函数添加索引词,查询的时候调用这个函数添加查询词*/static void add_word(MYSQL_FTPARSER_PARAM *param, char *word, size_t len){  // boolean 查询模式  MYSQL_FTPARSER_BOOLEAN_INFO bool_info=  { FT_TOKEN_WORD, 0, 0, 0, 0, ' ', 0 };  if (param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO){    bool_info.yesno = 1;  }  // 传递词给 mysql,用来创建索引,或者查询。  param->mysql_add_word(param, word, len, &bool_info);}/*  英文分词简单处理,用空格分隔          param              插件环境      描述:    解析英文的文档或者查询词,传递给 mysql 的索引引擎,用来创建索引,或者进行查询。*/static int tft_parse_en(MYSQL_FTPARSER_PARAM *param){  char *end, *start, *docend= param->doc + param->length;  number_of_calls++;  for (end= start= param->doc;; end++)  {    if (end == docend)    {      if (end > start)        add_word(param, start, end - start);      break;    }    else if (isspace(*end))    {      if (end > start)        add_word(param, start, end - start);      start= end + 1;    }  }  return 0;}/*  分词函数,对文档或者查询词进行分词。如果是全英文文档,则调用英文分词。*/#define c_uWordsCount 1024static int tft_parse(MYSQL_FTPARSER_PARAM *param){  if (NULL == param->doc || 0 == param->length){    return 0;  }  // 统计调用次数  number_of_calls++;  st_timer stTimerType = ST_TIMER_MICRO_SEC;  char* start = param->doc;  char* docend = param->doc + param->length;  // 初始化分词 handler  struct st_wordInfo wordInfo[c_uWordsCount] = { { 0, 0, 0 } };    st_darts_state dState;  stDartsStateInit(g_s_pDarts, &dState, start, docend);    uint32_t uWordsCount = 0;  long long queryBeginTime = stTimer(stTimerType);  // 循环获取中文分词  while(uWordsCount < c_uWordsCount 		  && stDartsNextWord(g_s_pDarts, &dState, &wordInfo[uWordsCount])){	++uWordsCount;  }  long long queryEndTime = stTimer(stTimerType);  stLog("result=%u, cost time=%lldus", uWordsCount, queryEndTime - queryBeginTime);  // 检测是否是英文  if(uWordsCount == 0){    tft_parse_en(param);  }  // 传递分词给 mysql ,用来创建索引,或者执行查询  for (int i = 0; i < uWordsCount; ++i){    add_word(param, wordInfo[i].pWord, wordInfo[i].wordLen);  }  return(0);}/*  插件的接口声明*/static struct st_mysql_ftparser tft_descriptor={  MYSQL_FTPARSER_INTERFACE_VERSION, /* interface version      */  tft_parse,              /* 解析函数 */  tft_init,               /* 初始函数 */  tft_deinit              /* 清理函数 *                    

人气教程排行