提高wiki的中文搜索的准确度,mysql的fulltext的中文支 - Free Advertising Forums | Free Advertising Board | Post Free Ads Forum | Free Advertising Forums Directory | Best Free Advertising Methods

**Adcdfwwxa** · 10-11-2011, 05:46 PM

Mysql 全文索引的中文问题（Mediawiki搜索中文问题）Category: 技术 ― ssmax @ 15:24:59今天翻了一下meidawiki的源代码，由于它的中文搜索不太准确，想查查原因，就看了一下它的搜索是如何实现的。
数据库是mysql，使用了全文索引表进行搜索
CREATE TABLE `searchindex` (
`si_page` int(10) unsigned NOT NULL,
`si_title` varchar(255) NOT NULL DEFAULT ”,
`si_text` mediumtext NOT NULL,
UNIQUE KEY `si_page` (`si_page`),
FULLTEXT KEY `si_title` (`si_title`),
FULLTEXT KEY `si_text` (`si_text`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8
mysql的FULLTEXT 对中文的支持一直不太好，如果直接用utf8字符串的话，没有分词分隔符,moncler ski，所以索引就没有效果，wiki通过取巧的方法，把utf8字符转换成U8xxxx进行保存，用英文空格分隔，所以就可以搜索了。
wiki的字符转换代码，比较有用，呵呵：
cat wiki/languages/classes/LanguageZh_cn.php
/**
* @addtogroup Language
*/
class LanguageZh_cn extends Language {
function stripForSearch( $string ) {
# MySQL fulltext index doesn't grok utf-8, so we
# need to fold cases and convert to hex
# we also separate characters as "words"
if( function_exists( 'mb_strtolower' ) ) {
return preg_replace(
"/([\xc0-\xff][\x80-\xbf]*)/e",
"' U8' . bin2hex( "$1" )",
mb_strtolower( $string ) );
} else {
list( , $wikiLowerChars ) = Language::getCaseMaps();
return preg_replace(
"/([\xc0-\xff][\x80-\xbf]*)/e",
"' U8' . bin2hex( strtr( "$1", $wikiLowerChars ) )",
$string );
}
}
}
上面的代码就会把汉字转换为U8xxxx空格，然后就可以使用mysql的full text索引了,Burberry On Sale，其实5.0之后的mysql可以使用utf8字符做全文索引了，但是由于分词的问题，还是需要把每个汉字用空格分开，而且要设置最小索引字符长度才行，所以还是wiki的这种方式方便。
因为它是一个汉字作为一个词，没有按顺序搜索，所以最后结果和中国人的语言习惯不太一样，其实只需要改一下源代码，使用冒号封装短语，就可以得出比较精确的结果了。
vim wiki/includes/SearchMySQL4.php
找到以下代码
if( $this->strictMatching && ($terms[1] == '') ) {
$terms[1] = '+';
}
$searchon .= $terms[1] . $wgContLang->stripForSearch( $terms[2] );
修改为
if( $this->strictMatching && ($terms[1] == '') ) {
// $terms[1] = '+';
$terms[1] = '+"';
}
$searchon .= $terms[1] . $wgContLang->stripForSearch( $terms[2] ) . '"';
即可精确搜索。

----------------------------------------------------------------------------------------------------------------------
--- /var/lib/mediawiki/includes/SearchMySQL.php.orig 2011-06-13 09:18:52.000000000 +0800
+++ /var/lib/mediawiki/includes/SearchMySQL.php 2011-06-13 09:11:32.000000000 +0800
@@ -51,9 +51,9 @@
foreach( $m as $terms ) {
if( $searchon !== '' ) $searchon .= ' ';
if( $this->strictMatching && ($terms[1] == '') ) {
- $terms[1] = '+';
+ $terms[1] = '+"';
}
- $searchon .= $terms[1] . $wgContLang->stripForSearch( $terms[2] );
+ $searchon .= $terms[1] . $wgContLang->stripForSearch( $terms[2] ).'"';
if( !empty( $terms[3] ) ) {
// Match individual terms in result highlighting...
$regexp = preg_quote( $terms[3], '/' );

**mo6v8jgy0ae** · 10-11-2011, 05:46 PM

,burberry bags

| Back to logs list

45814 2009 年 11 月 01 日 15:42 Reading (loading. ..) Comments (12) Category: Primary Six live
morning,paul smith sale, and the mint received SMS younger sister,burberry handbags, happy birthday. This reminds me today is the birthday of the lunar calendar. Draw the curtains and found that actually had so much snow the next. Ah this winter not to be. . . Rolled out to shoot some snow photos.
thirty,designer handbags cheap, standing.

| Back to logs list

**l1oe3tr3sbon** · 10-11-2011, 05:47 PM

记得我在江苏的时候，奶奶给我讲一个女人可以叫家，但是一个男人却不可以叫家，哪怕是住再大的房子也不是。当时还不是很理解，现在却逐渐体会了,Prada Bags Sale。每天回到家，第一件事情就是打开音乐，把声音开的尽量的大，早早的躲在床上。同事一直说给我贺新房，笑问我女主人来不来，我也笑笑！
问朋友我有那些不好的地方，太老实、用情太深、单纯、自我、固执、刚愎、古怪、不会保护自己、情商为零。细细想来，朋友说的不无道理，我的性格是有点古怪，一般情况下没什么，有时候却会莫名的发脾气，也许是心头的不舒服一点一点的积累起来，当承受不了的时候就爆发出来，发作的方式太直接，太快，结果却常常是伤害了别人也让自己伤心。以自己认为对的方式来对对方、要求对方，忘了每个人首先是属于他自己的，有他自己的想法，有他自己的个性。常常听不懂对方话里的含义，有时虽然心里可以理解，却因为不善言辞而闯祸。想真心的对待对方，然而缺乏有效的沟通手段,Prada Handbags，有心相依，无奈掩面
朋友聊天，谈起感情，说我对物质已没有太大的要求，追求的是精神上的满足。诚然，我对物质的要求不高，不为柴米油盐精打细算，有空喝喝咖啡，逛街的时候看到中意的物品不用考虑太多（不是好几大千那种哈）,Prada Online Shop，每年出去旅游一两次。向往那种彼此倾心相爱,Prada Bags，可以什么事都不做，静静相对都会感觉是浪漫的那种感觉。向往执子之手与子偕老的爱情。向往相濡以沫的生活。
很早就一个人在外地漂泊，一个人生活。孤寂久了，以为已经习惯了这种日子，却是越发的渴望有人说话的日子,Prada Handbags Sale，哪怕是相对无言。
不经意间，梦想和期待从指尖悄然滑落。努力的想唤起那份美好！风景依然美丽，是无法再去欣赏还是不能再去感受？淡淡的，淡淡的散落在空气中，无声。。。。。。无痕。。。。。。
一点点的忧伤，一点点的无奈，微微的向上翘起的嘴唇，含着一点点甜甜的笑容，遥望明月，也许一直会孤单的一个人走！！！也许曙光就在前方！！！

**Ue9eg9lrc1bh** · 10-11-2011, 05:47 PM

单恋一个人，她会无数次的翻看他们的聊天记录；她会把闲暇时光中的每一分每一秒都用来思念；她会反复的打开手机又合上，把他的号码删掉又记录，记录又删掉,Prada Online Shop；她会一遍又一遍在心里默念他的名字；她会期待如童话般的偶遇,Prada Bags 2011；她会在他们曾经呆过的地方驻足；她会望着他们坐过的座位发呆，奢望着他又一次出现在那里…… ……
单恋着的人是很伟大很无私的，她会不计得失，只想就这么独自地爱着。可是同时也是痛苦着的。每个女人生来应该是被疼爱被呵护的，而不应该这样的为爱情所苦。她不相信缘分，以为是爱情的召唤,Prada Shoes Online，也许那份爱情根本不该属于他和她，所以只会离她越来越远。茫茫人海,Prada Sunglasses，那根连接彼此小指的红线，也许就在不经意间断开了,Prada Men Shoes，是你错过了他，还是他错过了你。谁知道呢？

**g3sh7sf0mf** · 10-11-2011, 05:47 PM

最刮油的茶――喝不死你瘦死你handy
12种可以瘦身的茶，针对节食者、体质浮肿者、爱吃肉者、希望刮油消脂者、便秘者等不同减肥情况配制,shape up skechers，让爱美的你轻轻松松喝掉身上的脂肪。
节食者推荐喝乌龙茶
因节食减肥，吃得少,skechers outlet，食物残渣就不足,有时积存几天才一次，很容易乾燥。推荐饮用乌龙茶。
原料：乌龙茶
做法：简单地用开水冲。
功效：助消化、去痰、解酒食油腻之毒、消脂。
浮肿者喝薏仁茶
浮肿的原因很多，如果是单纯的水分滞留造成的浮肿，推荐饮用薏仁茶,skechers shape up shoes。
原料：炒薏仁10克、鲜荷叶5克、山楂5克。
做法：热水煮开，就可以饮用了。
功效：清热、利湿、治疗水肿。
压力造成便秘要喝荷叶茶
情绪低落、精神压力大，可能引起肠道的敏感性增加，而产生便秘困扰。推荐饮用荷叶茶。
原料：荷叶3克、炒决明子6克、玫瑰花3朵。
做法：用开水冲泡。
功效：清暑利湿、治水气浮肿、生发清畅。
节食便秘喝决明子茶
肠子蠕动功能迟缓的人,skechers shoes，(尤其是肥胖节食者在节食减肥期间)宿便容易积在体内，造成便秘。推荐饮用决明子茶。
原料：决明子茶
做法：热水冲泡,skechers shoes online。
功效：清肝明目、利水通便。
涨气者喝大麦芽茶
体内排气不畅，也能造成腹胀和胃胀，推荐饮用大麦芽茶。
原料：炒麦芽5钱、山楂5分。
做法：加冰糖水冲饮。
功效：开胃健脾、和中下气、消食除胀。
消脂喝柠檬茶
既能消脂、去油腻，又能美白肌肤。
原料：柠檬切片。
做法：榨出柠檬汁，用温水冲调，加入适量蜂蜜。
功效：笑脂肪、助消化、美白肌肤、滋润肺腑。最刮油的茶――喝不死你瘦死你[ft=,+0,]http://www.27.cn 2009-03-14 11:12 来源：太平洋女性网已经有 17752人阅读编辑：swing
积食喝普洱茶
胃里积食不化，不但影响肠胃功能，而且会使脂肪、糖份得不到正常的消耗而致胖。推荐饮用普洱茶。
原料：普洱茶叶、乾菊花5朵。
做法：热水冲泡。
功效：帮助消化、消除油脂。
护胃喝玫瑰花茶
多功能的玫瑰花，可以冲茶浸酒。多喝可以保护胃。
原料：玫瑰花5克。
做法：温开水冲泡。
功效：活血散淤、治肝胃气痛。
清火排毒菊花茶
清火、减肥最方便的饮品。
原料：几朵干菊花。
做法：直接以热水冲泡。
功效：清暑退热解毒、消脂肪、降血压。
油腻喝陈皮茶
如果一不小心吃得太多油腻，没关系，泡一壶陈皮茶，去去油腻吧。
原料：陈皮4克。
做法：沸水冲泡。
食肉者喝山楂茶
山楂茶对喜欢吃肉的肥胖这更适合。
原料：山楂10克。
做法：用水煎煮。
功效：能消除油脂、帮助排泄体内废物，散淤化痰。
利尿降脂酸溜根茶
绝对的减肥好饮品。饭后煮上一杯，既达到减肥的目的,skechers shape ups，又享受酸酸甜甜的好味道。
原料：山楂10克、荠菜花10克、玉米须10克、茶树根10克、糖少许。
做法：以上各味碾成粗末，煎汤取汁。
功效：利尿降脂，适於肥胖者和高血压者。
功效：理气调中、疏肝健脾、导滞消积