| 本程序为基于RMM中文分词思想,编写的简易中文分词,程序中还存在不少漏洞,望大神指点....优化了下乱码问题 /** * 基于RMM中文分词(逆向匹配法) * @author tangpan * @date 2013-10-12 * @version 1.0.0 **/class SplitWord {    //public $Tag_dic = array();  //存储词典分词    public $Rec_dic = array();  //存储重组的分词    public $Split_char = ' ';    //分隔符    public $Source_str = '';    //存储源字符串    public $Result_str = '';    //存储分词结果字符串    public $limit_lenght = 2;    public $Dic_maxLen = 28;     //词典中词的最大长度    public $Dic_minLen = 2;     //词典中词的最小长度        public function SplitWord() { //初始化对象,并自动执行成员方法        $this->__construct();    }    public function __construct() {        $dic_path = dirname(__FILE__).'/words.csv'; //预先载入词典以提高分词速度        $fp = fopen( $dic_path, 'r' );  //读取词库中的词        while( $line = fgets( $fp, 256 ) ) {            $ws = explode(' ', $line);  //对词库中的词进行分割            $ws[0] = trim(iconv('utf-8','GBK',$ws[0])); //编码转换            //$this->Tag_dic[$ws[0]] = true;    //以词为索引,序号为值            $this->Rec_dic[strlen($ws[0])][$ws[0]] = true;    //以词长度和词分别为二维数组的索引,以n为值,来重组词库        }        fclose($fp);    //关闭词库    }        /**     * 设置源字符串     * @param 要分词的字符串     */    public function SetSourceStr( $str ) {        $str = iconv( 'utf-8', 'GBK', $str );   //  将utf-8编码字符转换为GBK编码        $this->Source_str = $this->DealStr( $str );  //初步处理字符串    }        /**     * 检查字符串     * @param $str  源字符串     * @return bool     */    public function checkStr( $str ) {        if ( trim($str) == '' )     return; //若字符串为空,直接返回        if ( ord( $str[0] ) > 0x80 )  return true;    //是中文字符则返回true        else    return false;   //不是中文字符则返回false    }            /**     * RMM分词算法     * @param $str  待处理字符串     */    public function SplitRMM( $str = '' ) {        if ( trim( $str ) == '' )     return;     //若字符串为空,则直接返回        else    $this->SetSourceStr( $str );    //字符串不为空时,设置源字符串        if ( $this->Source_str == ' ' )     return; //当源字符串为空时,直接返回        $split_words = explode( ' ', $this->Source_str ); //以空格来切分字符串        $lenght = count( $split_words );    //计算数组长度        for ( $i = $lenght - 1; $i >= 0; $i-- ) {            if ( trim( $split_words[$i] ) == ' ' )  continue;   //如果字符为空时,跳过后面的代码,直接进入下一次循环            if ( $this->checkStr( $split_words[$i] ) ) {  //检查字符串,如果是中文字符                if ( strlen( $split_words[$i] ) >= $this->limit_lenght ) { //字符串长度大于限制大小时                    //对字符串进行逆向匹配                    $this->Result_str = $this->pregRmmSplit( $split_words[$i] ).$this->Split_char.$this->Result_str;                }            } else {                $this->Result_str = $split_words[$i].$this->Split_char.$this->Result_str;            }        }        $this->clear( $split_words );   //释放内存        return iconv('GBK', 'utf-8', $this->Result_str);    }        /**     * 对中文字符串进行逆向匹配方式分解     * @param $str  字符串     * @return $retStr  分词完成的字符串     */    public function pregRmmSplit( $str ) {        if ( $str == ' ' )  return;        $splen = strlen( $str );        $Split_Result = array();        for ( $j = $splen - 1; $j >= 0; $j--) {     //逆向匹配字符            if ( $splen <= $this->Dic_minLen ) {     //当字符长度大于词典中最小字符长度时                if ( $j == 1 ) {    //当长度为 1 时                    $Split_Result[] = substr( $str, 0, 2 );                } else {                    $w = trim( substr( $str, 0, $this->Dic_minLen + 1 ) );  //截取前四个字符                    if ( $this->IsWord( $w ) ) {    //判断词典中是否存在该字符                        $Split_Result[] = $w;   //存在,则写入数组存储                    } else {                        $Split_Result[] = substr( $str, 2, 2 ); //逆向存储                        $Split_Result[] = substr( $str, 0, 2 );                    }                }                $j = -1;    //关闭循环;                break;            }             if ( $j >= $this->Dic_maxLen )  $max_len = $this->Dic_maxLen;   //当字符长度大于词典最大词的长度时,赋值最大限制长度            else    $max_len = $j;            for ( $k = $max_len; $k >= 0; $k = $k - 2 ) { //一次跳动为一个中文字符                $w = trim( substr( $str, $j - $k, $k + 1 ) );                if ( $this->IsWord( $w ) ) {                    $Split_Result[] = $w;   //保存该词                    $j = $j - $k - 1;   //位置移动到已匹配的字符的位置                    break;  //分词成功即跳出当前循环,进入下一循环                }            }        }        $retStr = $this->resetWord( $Split_Result );    //重组字符串,并返回处理好的字符串        $this->clear( $Split_Result );  //释放内存        return $retStr;    }        /**     * 重新识别并组合分词     * @param   $Split_Result   重组目标字符串     * @return $ret_Str     重组字符串     */    public function resetWord( $Split_Result ) {        if ( trim( $Split_Result[0] ) == '' ) return;        $Len = count( $Split_Result ) - 1;        $ret_Str = '';        $spc = $this->Split_char;        for ( $i =  $Len; $i >= 0; $i-- ) {            if ( trim( $Split_Result[$i] ) != '' ) {                $Split_Result[$i] = iconv( 'GBK', 'utf-8', $Split_Result[$i] );                $ret_Str .= $spc.$Split_Result[$i].' ';            }        }        //$ret_Str = preg_replace('/^'.$spc.'/','、',$ret_Str);        $ret_Str = iconv('utf-8','GBK',$ret_Str);        return $ret_Str;    }        /**     * 检查词典中是否存在某个词     * @param $okWord 检查的词     * @return bool;     */    public function IsWord( $okWord ) {        $len = strlen( $okWord );        if ( $len > $this->Dic_maxLen + 1 )     return false;        else { //根据二维数组索引匹配,是否存在该词            return isset($this->Rec_dic[$len][$okWord]);        }                }        /**     * 初步处理字符串(以空格来替换特殊字符)     * @param $str   要处理的源字符串     * @return $okStr   返回预处理好的字符串     */    public function DealStr( $str ) {        $spc = $this->Split_char;   //拷贝分隔符        $slen = strlen( $str ); //计算字符的长度        if ( $slen == 0 )   return;     //如果字符长度为0,直接返回        $okstr = '';    //初始化变量        $prechar = 0;   //字符判断变量(0-空白,1-英文,2-中文,3-符号)        for ( $i = 0; $i < $slen; $i++ ) {            $str_ord = ord( $str[$i] );            if ( $str_ord < 0x81 ) {   //如果是英文字符                if ( $str_ord < 33 ) {     //英文的空白符号                    if ( $str[$i] != '\r' && $str[$i] != '\n' )                        $okstr .= $spc;                    $prechar = 0;                    continue;                } else if ( ereg('[@\.%#:\^\&_-]',$str[$i]) ) { //如果关键字的字符是数字或英文或特殊字符                    if ( $prechar == 0 ) {  //当字符为空白符时                        $okstr .= $str[$i];                        $prechar = 3;                    } else {                        $okstr .= $spc.$str[$i];    //字符不为空白符时,在字符前串上空白符                        $prechar = 3;                    }                } else if ( ereg('[0-9a-zA-Z]', $str[$i]) ) { //分割英文数字组合                    if ( (ereg('[0-9]',$str[$i-1]) && ereg('[a-zA-Z]',$str[$i]))                        || (ereg('[a-zA-Z]',$str[$i-1]) && ereg('[0-9]',$str[$i])) ) {                        $okstr .= $spc.$str[$i];                    } else {                        $okstr .= $str[$i];                    }                 }            } else { //如果关键字的第二个字符是汉字                if ( $prechar != 0 && $prechar != 2 )  //如果上一个字符为非中文和非空格,则加一个空格                    $okstr .= $spc;                if ( isset( $str[$i+1] ) ) {    //如果是中文字符                    $c = $str[$i].$str[$i+1];   //将两个字符串在一起,构成一个中文字                    $n = hexdec( bin2hex( $c ) );   //将ascii码转换成16进制,再转化为10进制                    if ( $n > 0xA13F && $n < 0xAA40 ) {   //如果为中文标点符号                        if ( $prechar != 0 ) $okstr .= $spc; //将中文标点替换为空                        //else $okstr .= $spc;  //若前一个字符为空,则直接串上                        $prechar = 3;                    } else {    //若不是中文标点                        $okstr .= $c;                        $prechar = 2;                    }                    $i++;   // $i 再加 1 ,即使一次移动为一个中文字符                }            }        }        return $okstr;    }        /**     * 释放内存     * @param $data    暂存数据     */    public function clear( $data ) {        unset( $data ); //删除暂存数据    }}?>
  |