大数据时代形码中文输入法的存在意义与选择建议

2015-03-21

中文信息世界曾有一个“万码奔腾”的年代,各类汉字编码与输入方案层出不穷。随着基于整句匹配的智能拼音技术的成熟,特别是互联网语料库和云计算技术在输入法中的普遍应用,智能化的拼音输入法打破了五笔字型等形码的速度传说,在主流用户市场取得了显著的胜利。曾经红火一时的形码输入法及其周边产业早已严重萎缩——普通用户不再需要为中文输入的基本需求学习一项有门槛的技能,厂商为老用户和遗留应用提供技术支持与服务的动力锐减,汉字的字形编码从“显学”变为爱好者的业余研究。在这个已将大数据作为信息引擎的时代,以字词为中心的、非智能的形码输入法是否还有存在意义?作为一名资深形码用户,我在这里抛开文化传承、自我挑战等务虚问题,从实用角度出发谈谈自己的看法,并为打算学习形码的朋友提供一点建议。

形码的一条重要特征是编码区分度与有理度的权衡。汉字内码及区位码具有一字一码的高区分度,但难以精确记忆到每一个字,不能成为易学的汉字输入方案。拼音具有与汉字读音绑定的高有理度,但重码比例高,单个字词的输入效率低。形码在这二者之间寻求平衡点,通过设计尽可能有理且易学的编码方案,降低重码率、提高区分度,具有单个字词输入效率高的特点。在智能拼音技术成熟之前,形码输入法的核心优势本质上就是基于这一权衡,并以字词为单位战胜拼音。而智能拼音技术则另辟蹊径,以词组语句为单位,借助上下文分析及语料库匹配,绕过编码区分度问题,大幅提高输入速度。但我们由此也可以看出智能拼音技术的两条限制:输入法实现依赖于高级算法或外部资源,编码区分度和输入效率依赖于语句上下文。形码不存在这些限制,其存在的技术意义在于可用基础搜索算法高效实现单个字词的快速、精确输入。

由形码的技术意义可以推导出其实用意义。在终端计算能力不断增强、云计算和大数据作为补充的情况下,形码只依赖于基础算法的实现优势对于消费市场而言已不具吸引力。然而对于无法联网、资源受限、实时性与可靠性要求高的特殊应用场景,形码不失为恰当的候选方案。相比实现优势,形码现存的应用优势主要体现在单个字词的快速精确输入。对于人名、地名、古文、生字表、学科名词等上下文关联度差的离散型语料,智能拼音技术的帮助有限,形码的长处得以发挥。特别对于生僻字,尽管不少拼音输入法已提供了拆分、笔画、手写等辅助输入方案,但其操作效率明显不如形码高。诸如户籍录入、古籍整理等特殊应用场景,形码输入法至今仍作为行业基础技能对待。此外,对于汉字专业研究者与业余爱好者,需要混合输入简体、繁体,处理各种偏旁部首、异体古字、日韩汉字,或以字形为依据组字检字时,形码输入法始终是一种相当高效的工具。综上,形码的市场虽愈发小众,但不至于丧失实用价值。

对于认同这几条实用意义、出于上述目的学习形码的新用户,本文给出选择形码输入法的一些建议。

编码方案的技术开放性是选择形码输入法的首要标准。在形码逐渐被主流市场抛弃的现实下,唯有开放的技术才能保证在缺乏商业支持后继续生存。有些形码从发布之初便遵循开放的理念,诸如朱邦复先生的仓颉、廖明德先生的行列。由于授权和使用免费,这些形码已被主流操作系统和信息处理设备广泛采纳,并且有大量第三方输入法软件可供选择;码表与词库没有版权约束,易于向新平台移植,因此不受操作系统等宿主技术演进的影响。有些形码曾有专利或版权限制,但因种种原因已不再受到约束,比如王永民先生的五笔 86 版(专利有效时业界曾有争议,如今专利已过期)、张建平先生的张码(发明人放弃专利申请,宣布全面开放设计)。这类形码中的先发制人者具有与开放技术相似的发展优势。有些形码至今仍然具有专利或版权限制,比如郑易里先生的郑码(专利虽过期,但中易公司仍以码表版权为由保护其专有性)、王永民先生的五笔大一统版(专利仍有效)。这些形码受到法律约束,不能为第三方自由复制、发布和重新实现,其生存周期与专利权人、著作权人的决策息息相关;有关这些形码的商业官司已有先例,用户得以合法使用的场景相当受限。因此,为了确保所学技能的长时期、多平台可用性,形码新用户应当优先考虑前两类技术开放编码方案,谨慎选择第三类受制于专利和版权的编码方案。

输入法产品的字符集覆盖完整性是决定形码实用价值的重要因素。万码奔腾年代诞生的形码面向大众,重点支持 GB2312、Big5 等基础字符集,而如今形码已不再作为普通用户输入日常文字的工具。考虑现今形码的实用意义和用户特征,有必要注意形码输入法的字符集覆盖问题。对于中国大陆以简体汉字输入为主的用户,仅支持六千多 GB2312 汉字的早期形码输入法(如王码官方五笔 86 版)已不能适应“囧”、“喆”、“镕”等汉字被广泛使用的时代,应列入淘汰对象。支持两万多 GBK 或 GB18030-2000 汉字的输入法(如王码官方五笔大一统版)具备与主流操作系统默认字体相匹配的输入能力,能满足多数人名、地名生僻字和简体繁体混合输入需求。而对于需要处理古字、异体字等罕用汉字的研究者与爱好者,务必考虑支持七万多 Unicode CJK 或 GB18030-2005 汉字的输入法。五笔方面,孙海峰先生主持编制的海峰五笔码表满足这一需求。这个开放的码表经后人几多完善,目前已被包括 Rime、IBus 在内的多种开源输入法平台所采用。仓颉方面,马来西亚仓颉之友社区推出的五仓世纪码表满足这一需求。这个开放的码表亦被 Rime、libcangjie 等开源项目采用。此外,还有其他支持 Unicode CJK 部分或全部扩展汉字集的形码输入法,但因不符合开放性条件,这里不再介绍。

编码的科学性、规范性、易学性、难忘性等指标不再重要。在形码面向大众推广的年代,这些指标曾是不同编码方案相互比拼的核心特性。但由于形码用户群体的变化,如今强调这几条性质的意义不如从前。科学性与规范性方面,形码输入法已不再需要借助“字根合理、反映字源、符合笔顺”等特征来获得权威机构认同,从而进入教育培训等领域。针对常用汉字选取的字根在应对 Unicode 中的大量古字与异体字时,难免出现歧义或争议。为解决重码等问题,例外编码在各种形码方案中也普遍存在。所谓科学和规范的“终极输入法”仍是很多汉字编码业余研究者可望而不可及的目标,这些美好的理想不敌先入为主的市场实现。易学性与难忘性方面,经过万码奔腾年代大浪淘沙留存至今的形码输入法已经自证其具有可接受的学习曲线。事实上,形码输入熟练者大都建立了从语义到指法的条件反射,拆字过程已在脑中省略,这些条件反射化的经验能够取代标准规则,成为尝试输入生僻字的依据。形码新用户有必要为自己的特殊需求承担合理的学习成本,放弃追求易学难忘的侥幸,通过熟能生巧发挥形码优势。

综上条件,本人推荐的形码是五笔与仓颉——这一结果并不令人意外。编码方案版本方面,五笔以海峰五笔扩展的 86 版码表为佳,因为王码官方 86 版字符集收录不足,而 98 版与大一统版仍存在专利或版权限制。仓颉以马来西亚仓颉之友的五代码表为佳,因为主流操作系统中的官方五代字符集收录略有不足,而官方三代则对简体中文的支持有限。考虑编码方案设计初衷,简体中文用户可优先选择五笔,繁体中文用户可优先选择仓颉,从而尽可能降低重码率。具体输入法方面,以原生支持上述编码方案的输入平台为佳,比如开源、跨平台的 Rime 就是这样一个优秀的软件。此外,直接将上述开放码表导入个人熟悉的输入平台亦是适合技术人士的可选方案。当然,五笔与仓颉只是两种使用相对广泛、生态系统相对完善、在多种平台上随手可得的代表性形码。还有不少其他优秀的形码输入法符合本文所述的选择标准,新用户可根据个人需求评估与选用。