时间:2021-07-01 10:21:17 帮助过:13人阅读
客串:屌丝的坑人表单神器、数据库那点事儿
面向对象升华:面向对象的认识----新生的初识、面向对象的番外----思想的梦游篇(1)、面向对象的认识---如何找出类
负载均衡:负载均衡----概念认识篇、负载均衡----实现配置篇(Nginx)
吐槽:现在欠的文章有面向对象的认识----类的转化、面向对象的番外---思想的梦游篇(2)、负载均衡 ---- 文件服务策略、手把手教你做关键词匹配项目(搜索引擎)。真心太多了,能不能让我休息一会儿。
第二十一天
起点:手把手教你做关键词匹配项目(搜索引擎)---- 第一天
回顾:手把手教你做关键词匹配项目(搜索引擎)---- 第二十天
今天有个理论知识要理解的,叫做测试驱动编程,之前我提到过概念,在:手把手教你做关键词匹配项目(搜索引擎)---- 第十一天
今天小帅帅秀逗了一回,使用了这个思想。
好了,以下正文开始。
话说小帅帅把自己写的业务拆词方法给了于老大看,于老大很高兴。
但是业务拆词的词组都是有限的,还有就是当业务拆词的数据量越来越大的时候,就会造成运算时间增加。
于老大就提到,是否可以用其它分词扩展来弥补拆词的不足。
毕竟人家专业人士做的,比较靠谱点。
于老大很有经验,就推荐小帅帅去了解SCWS的用法.
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
官方网址:http://www.xunsearch.com/scws/index.php
小帅帅听了当然很开心罗,因为又有新的知识点了。
小帅帅照着SCWS的安装文档安装了SCWS。
并把php扩展装好了,并尝试写了个测试代码:
php class TestSCWS { public static function split($keyword){ if (!extension_loaded("scws")) { throw new Exception("scws extension load fail"); } $so = scws_new(); $so->set_charset('utf8'); $so->send_text($keyword); $ret = array(); while ($res = $so->get_result()) { foreach ($res as $tmp) { if (self::isValidate($tmp)) { $ret[] = $tmp; } } } $so->close(); return $ret; } public static function isValidate($scws_words) { if ($scws_words['len'] == 1 && ($scws_words['word'] == "\r" || $scws_words['word'] == "\n")) { return false; } return true; } } var_dump(TestSCWS::split("连衣裙xxl裙连衣裙"));
测试通过,跟理想中的一摸一样,小帅帅很高兴,就去问于老大:于老大我会用SCWS了,下一步该怎么办?
于老大也不慌,就对小帅帅说: 你先写个ScwsSplitter来拆分关键词吧。
小帅帅非常高兴,因为他学到了新的知识,就对于老大说到好的。
小帅帅说到做到,代码如下:
class ScwsSplitter { public $keyword; public function split(){ if (!extension_loaded("scws")) { throw new Exception("scws extension load fail"); } $keywordEntity = new KeywordEntity($this->keyword); $so = scws_new(); $so->set_charset('utf8'); $so->send_text($this->keyword); while ($res = $so->get_result()) { foreach ($res as $tmp) { if ($this->isValidate($tmp)) { $keywordEntity->addElement($tmp["word"]); } } } $so->close(); return $keywordEntity; } public function isValidate($scws_words) { if ($scws_words['len'] == 1 && ($scws_words['word'] == "\r" || $scws_words['word'] == "\n")) { return false; } return true; } }
小帅帅又跑去找于老大,说到:我把Scws的分词代码写好了。
于老大也佩服小帅帅的高效率。
又说到:如果我两个同时用了,我先用业务分词,遗留下来的词用Scws分词,小帅帅有好的方案吗?
小帅帅就问到: 为啥要这样,这不是多此一举。
于老大就说到:业务有些专有名词,SCWS分不出来丫,那怎么办好?
小帅帅又说到:我看文档的时候看到有词库和规则文件的设置,我们用它好不好?
于老大又说到:这个是可以,但是我们如何保证让运营人员维护,我们要学会把这些事情交出去丫。
小帅帅: …….
小帅帅沉默了片刻,觉得现在两个类都写了,一起用是最快的方案,就答应到:好吧,我回去改改….
首先小帅帅根据测试驱动编程的思想写了入口代码:
class SplitterApp { public static function split($keyword,$cid){ $keywordEntity = new KeywordEntity($keyword); #业务分词 $termSplitter = new TermSplitter($keywordEntity); $seg = new DBSegmentation(); $seg->cid = $cid; $termSplitter->setDictionary($seg->transferDictionary()); $termSplitter->split(); #SCWS分词 $scwsSplitter = new ScwsSplitter($keywordEntity); $scwsSplitter->split(); #后续遗留单词或者词组处理 $elementWords = $keywordEntity->getElementWords(); $remainKeyword = str_replace($elementWords, "::", $keywordEntity->keyword); $remainElements = explode("::", $remainKeyword); foreach($remainElements as $element){ if(!empty($element)) $keywordEntity->addElement($element); }
return $keywordEntity; } }
小帅帅嘿了一声,有了测试入口,还怕其他的搞不定。
首先KeywordEntity的getElementWords,先搞定他.
class KeywordEntity { public $keyword; public $elements = array(); public function __construct($keyword) { $this->keyword = $keyword; } public function addElement($word, $times = 1) { if (isset($this->elements[$word])) { $this->elements[$word]->times += $times; } else $this->elements[$word] = new KeywordElement($word, $times); } public function getElementWords() { $elementWords = array_keys($this->elements); usort($elementWords, function ($a, $b) { return (UTF8::length($a) < UTF8::length($b)) ? 1 : -1; }); return $elementWords; } /** * @desc 计算UTF8字符串权重 * @param string $word * @return float */ public function calculateWeight($word) { $element = $this->elements[$word]; return ROUND(strlen($element->word) * $element->times / strlen($this->keyword), 3); } } class KeywordElement { public $word; public $times; public function __construct($word, $times) { $this->word = $word; $this->times = $times; } }
其次就是分词了,首先先抽出公用类先,Splitter变成了公用类,有哪些方法呢?
1. 抽象split方法
2. 获取关键词待拆分的词组
3. 是否需要拆分
按照这写,小帅帅写出了以下代码:
abstract class Splitter { /** * @var KeywordEntity $keywordEntity */ public $keywordEntity; public function __construct($keywordEntity){ $this->keywordEntity = $keywordEntity; } public abstract function split(); /** * 获取未分割的字符串,过滤单词 * * @return array */ public function getRemainKeywords() { $elementWords = $this->keywordEntity->getElementWords(); $remainKeyword = str_replace($elementWords, "::", $this->keywordEntity->keyword); $remainElements = explode("::", $remainKeyword); $ret = array(); foreach ($remainElements as $element) { if ($this->isSplit($element)) { $ret[] = $element; } } return $ret; } /** * 是否需要拆分 * * @param $element * @return bool */ public function isSplit($element) { if (UTF8::isPhrase($element)) { return true; } return false; } }
然后小帅帅继续实现业务拆分算法,以及Scws拆分算法。小帅帅淫笑了,这点小事情还是可以办到的。
class TermSplitter extends Splitter { private $dictionary = array(); public function setDictionary($dictionary = array()) { usort($dictionary, function ($a, $b) { return (UTF8::length($a) < UTF8::length($b)) ? 1 : -1; }); $this->dictionary = $dictionary; } public function getDictionary() { return $this->dictionary; } /** * 把关键词拆分成词组或者单词 * * @return KeywordScore[] $keywordScores */ public function split() { foreach ($this->dictionary as $phrase) { $remainKeyword = implode("::",$this->getRemainKeywords()); $matchTimes = preg_match_all("/$phrase/", $remainKeyword, $matches); if ($matchTimes > 0) { $this->keywordEntity->addElement($phrase, $matchTimes); } } } } class ScwsSplitter extends Splitter { public function split() { if (!extension_loaded("scws")) { throw new Exception("scws extension load fail"); } $remainElements = $this->getRemainKeywords(); foreach ($remainElements as $element) { $so = scws_new(); $so->set_charset('utf8'); $so->send_text($element); while ($res = $so->get_result()) { foreach ($res as $tmp) { if ($this->isValidate($tmp)) { $this->keywordEntity->addElement($tmp['word']); } } } $so->close(); } } /** * @param array $scws_words * @return bool */ public function isValidate($scws_words) { if ($scws_words['len'] == 1 && ($scws_words['word'] == "\r" || $scws_words['word'] == "\n")) { return false; } return true; } }
小帅帅终于把这些代码全部搞定了,高兴之余,他还顺手画了UML图送给大家:
小帅帅的成长真心够厉害的哦,于老大看后,连称赞了三次。
为了测试,小帅帅写了测试代码,代码如下:
class SplitterAppTest { public static function split($keyword){ $keywordEntity = new KeywordEntity($keyword); #业务分词 $termSplitter = new TermSplitter($keywordEntity); $seg = new TestSegmentation(); $termSplitter->setDictionary($seg->transferDictionary()); $termSplitter->split(); #SCWS分词 $scwsSplitter = new ScwsSplitter($keywordEntity); $scwsSplitter->split(); #后续遗留单词或者词组处理 $elementWords = $keywordEntity->getElementWords(); $remainKeyword = str_replace($elementWords, "::", $keywordEntity->keyword); $remainElements = explode("::", $remainKeyword); foreach($remainElements as $element){ if(!empty($element)) $keywordEntity->addElement($element); } return $keywordEntity; } } SplitterAppTest::split("连衣裙xl裙宽衣裙");
小帅帅意淫着,想到总有一天把你们踩在脚下。
每个人一生中都拥有一副好牌,可惜的是许多人都把它浪费了,手上握有一副富人的牌,却把自己打成了一个穷人。
许多人心灵上都沾满了消极的灰尘,失望的污泥和贫穷落后的思想,甚至还怨恨的种子,这样你就永远不会快乐和富有的。穷人:致富和做生意到底有没有什么秘诀?
富人:每件事情都 有它不同的内在规律,所谓的秘诀实际上就只是那么一点点东西。
九十九度加一度,水就开了。开水与温水的区别是这么一度。有些事情之所以会有天壤之别,往往就是因为这微不足道的一度。我在报上看到这么一件事。
两个下岗女工,各在路边开了一个早点铺,都卖包子和油茶。一个生意逐渐兴旺,一个30天后收了摊,据说原因是一个鸡蛋的问题。
生意逐渐兴旺的那家,每当顾客到来时,总是问在油茶里打一个鸡蛋还是两个鸡蛋;垮掉的那一家问的是要不要。两种不同的问法总能使第一家卖出较多的鸡蛋。鸡蛋卖出得多,盈利就大,就付得起各项费用,生意也就做了下去。鸡蛋卖得少的,盈利少,去掉费用不赚钱,摊子只好收起。成功与失败之间仅一个鸡蛋的区别。
名满天下的可口可乐中,百分之九十九的是水、糖、碳酸和*,世界上一切饮料的构成也大概如此。然而在可口可乐中有1%的东西是其他绝对有的,据说就是这个神秘的1%,使它每年有4亿多美的纯利润,而其他品牌的饮料,每年有8000万美的收入就算满意了。
在这世界上成与败之间的距离就这么一点点,所谓秘诀也就这一点点,但就这一点点东西是最宝贵的,许多人要用多次的失败才换回它,然后走向成功。穷人:如果知道了某种生意的秘诀,然后从事这个项目就容易成功吗?
富人:各种生意都有自己的小秘密,谁也不会把这小秘密告诉别人,因为有的是不能摆到桌面上的,另外也怕被别人学走了,他们都把它列入了祖传秘方。那个诊所的朋友,他告诉我,一个诊所要赚钱,原则上:一要便宜,二要有效。但你如果死照这原则做,是不了钱的。既然便宜你收费就不能贵,有效的话,病一次就看好了,这样赚的钱除了打点主管部门、房租、员工工资,以及七七八八的社会各种收费所剩无几了……不如剩早关门。你要从事什么行业,你就要先去跟从事这行业的人做朋友或先到他那里做雇员最好同,用心就能学到这个祖传秘方。这比自己损失了不少时间在实践中慢慢摸索要合算得多。
小老板做事,中老板做市,大老板做势!
我们许多人用体力赚钱,不少人用技术赚钱,很少人用知识赚钱,极少人是用智慧赚钱的。在财富时代,智慧的人太少太少,有智慧又能抓住商机的人更是凤毛麟角。只要我们开动脑筋,发挥智慧,就可以把握机会,成为财富的主人。
???
http://www.bkjia.com/PHPjc/874526.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/874526.htmlTechArticle手把手教你做关键词匹配项目(搜索引擎)---- 第二十一天,教你做第二十一天 客串:屌丝的坑人表单神器、数据库那点事儿 面向对象升华...