搜索引擎处理汉字“多语同文”的问题——bing和google的一项差异

2009/06/04 | 14:16 | 分类:Web与移动平台 | 标签: | 782次阅读

  首先声明,我不是搜索引擎方面的专家,以下内容仅仅是实验结果和推测。
  多语种搜索引擎的设计实现中,会遇到一个问题:多语同文。例如英语之外,还有多种语言使用拉丁字母;俄语之外,也有其它语言使用西里尔字母;汉字不仅在中文中出现,也在日文和韩文中使用;中文还区分简体繁体,字形与其使用地域有一定关联。如果输入一个关键字,这个关键字在使用相同字符体系的不同地区、不同语言中恰好都是合法的词汇,那么应该返回哪种语言的结果集呢?
  很多搜索引擎都有区域和语言设置,区域选项决定结果集的地域相关性,语言选项决定界面显示或结果集限定的语种。对相当一部分国家来说,区域决定语言。不同搜索引擎对区域和语言设置的敏感程度不同。别的字符体系我没有实验过,但就中文来说,新上线的bing和google还是有一些区别的。我实验的关键字包括但不限于:

简繁日不同形: 价格(價格、価格)、开发(開發、開発)、广东(廣東、広東);
简繁同形:   你好、健康、公路、使用、叫做、智能、孩子、人民;
简日同形:   日本、大阪、社会、福祉;
繁日同形:   東京、幹線、講師、情報。

  在google美国,无论搜索简体字还是繁体字,google都会在内部做简繁转换。尽管简繁搜索结果有所不同,但简体的结果中往往也包括了一些繁体页面,反之亦然。如果搜索日文汉字,则结果均为日文网页,不会转换成简体字或繁体字进行相应中文网页检索。在google中国大陆台湾省的入口,也会执行这项转换。但在google日本,一切汉字均被当作日文汉字处理,结果集以日文为主。如果搜索一些在中文中使用、在日文中不使用的汉字,也会出现一些中文结果。而在google其它地区的入口,如英国韩国,不执行简繁转换,结果集与输入字形一致。
  在bing美国,如果搜索简、繁、日不同形的汉字,则会返回相应地区、相应字符集的结果,系统并不进行简繁转换。但如果输入简繁同形、简日同形或繁日同形的汉字,bing好像是会执行一个智能判读,只返回它认为正确的字符集对应的结果集。这个返回结果有时就令人诧异了,例如简繁同形的“你好、健康、公路、使用”返回的大多是港台的页面,而“叫做、智能、孩子、人民”返回的则大多是大陆的页面;简日同形的“日本、大阪、社会、福祉”和繁日同形的“東京、幹線、講師、情報”返回的全都是日本的页面。这严重影响中文用户的使用,所以针对美国市场的bing并不适合直接做中文检索。
  但bing针对中国大陆台湾省日本的入口则综合考虑了区域与语言的因素,返回的内容多是与本地区相关的,不会像美国站那样瞎猜。在中国大陆站输入繁体字或日文汉字,bing会提示用户:想搜索的是不是相应的简体字,或者直接把简体字的结果返回;但在台湾和日本站没有做字形转换。
  对于汉字多语同文问题,什么样的结果才能最好地满足用户的需求呢?在语言策略上,google也许在尽力保持不同地区搜索结果的一致性,同时也针对特殊的地区执行特殊的语言处理策略(例如在日本,要将所有汉字看作日文汉字;在中国,要处理简体繁体问题),这也许是google追求的技术完美主义抑或是“不作恶”的体现。而bing综合考虑了关键字、区域设置和语言设置,返回与用户所在区域相关、使用指定语言书写的网页,这应该是符合大众用户需求的。在区域策略上,google的默认搜索选项总是搜索全球网页而不是特定地区的网页;而bing默认与特定的区域绑定(在bing的“首选项”中可以体现),本地结果优先呈现,这可能也是二者市场定位的差别。而对于大众以外的需求,搜索引擎的默认策略则不一定能够方便地满足。例如中国用户也常常使用美国版google.com(可以将界面语言设置为中文)取代google.cn,来避免结果被“依法”过滤。而美国版bing即使加上“language:zh_chs”参数,搜索排序效果也明显没有中国版bing好,这应该和它本地化的定位是相关的,鱼和熊掌不可兼得。
  之所以多语同文会带来这些问题,可能就是因为查询语义和目标语义之间隔了两个语言层:查询语言和目标语言,而这两层之间存在着多对多的映射。Semantic WebLinked Data在解决语义关联问题的同时,应该也可以解决多语同文的问题。但像Linked Data这样基于人工或半自动化的方法补充元数据及其关联是不是一个好的思路呢?语义的描述和识别究竟应该是人的任务还是应该交给机器来做?如何划分技术提供者、文档作者和文档读者的责任域?这是改进web、创建新的网络文档模型过程中需要考虑的。

相关文章

发表您的评论

您的名字: (必填)

您的邮箱: (不会被公布,必填)

您的网站:

* 正确填写邮箱可支持Gravatar头像服务。
* 与主题无关的内容请用邮件或IM与我联系。