启用 FeedSky

2010/01/15 | 21:14 | 分类:默认分类 | 标签: | 284次阅读

  没别的意思,只是给不方便登录国际网而执意使用本地 RSS 阅读器,或对 FeedBurner 的前景的有所担忧的朋友一个额外的选择。

FeedSky

差一点就侵权了

2010/01/09 | 18:30 | 分类:IT杂谈 | 标签: | 394次阅读

  在处理版权相关的问题上,我认为我已经挺谨慎了,不过我今天还是收到了 Youtube 的一封提醒邮件,称 2008 年上传的一段视频中存在他人版权所有的内容:

Your video, 现代舞剧《梁山伯与祝英台》, may have content that is owned or licensed by EMI.
No action is required on your part; however, if you are interested in learning how this affects your video, please visit the Content ID Matches section of your account for more information.

  这明明是一段原创视频,为什么会存在他人版权所有的内容呢?顺着链接点进去,发现原来是因为这段节目中使用了莫文尉等歌手的歌曲片段作为部分场景的背景音乐。虽说只在视频的一部分场景中使用,也只使用了版权音乐的几个片段,而且是非营利的使用,但 Youtube 的争议处理条款中还是明文规定了这几种用法属于“包含他人版权内容”的情形(但没有使用“侵权”等更严重的说法)。处理办法是自动地在这个视频页面中加入音乐版权声明以及 iTunes、Amazon 购买链接,并且在音乐版权所有人(EMI、Sony)限定的地区(德国、日本)屏蔽这段视频的播放。除此以外 Youtube 并没有别的要求,并且在邮件中提醒我放心:“No action is required on your part”。作为全球数一数二的视频服务提供商,Youtube(或者 Google)能细致到这个程度,令人敬佩。

差一点就侵权了

差一点就侵权了

  美国的视频网站对于版权内容一般都有严格的限定,各大视频网站的定位相对明确,同样的视频一般不会在多个网站同时中出现。而国内几家主要的视频网站早已进入同质化竞争,很难说谁能够依靠内容制胜——主要的问题当然是对版权的漠视了。几天前外交部发言人再次强调府高度重视和充分尊重软件的知识产权。但事实情况如何,不言自明。新浪和优酷的视频上传界面就是典型:一方面强调不能上传自己没有版权的内容,另一方面默认的来源设置却是“转载”。这让我想起一位程序员在博客里提到他自己放弃使用 CSDN 博客的理由就是每篇博文前面那个显眼的“原”字。那个“原”字仿佛在给自己立牌坊,生怕别人不知道你的清白。如火如荼的互联网不良信息清理运动以及“国字号”的登台,要是真能把工夫下在保护版权上,也算是对业界有点贡献。

差一点就侵权了

差一点就侵权了

  一句话:大环境改变不了,只能自己更加谨慎。

使用 rsync 或 unison 备份或同步支持 ssh 的 web 主机

2010/01/07 | 15:11 | 分类:Web与移动平台 | 标签: | 575次阅读

  使用 web 主机而非 VPS 的站长,站点的备份或同步常常是一个问题。很多站点只能使用 ftp 做单向备份,基于较弱的元信息来判定文件是否需要重新下载,缺乏校验、压缩、增量传输等高级特性。有的服务商在 web 控制面板中提供备份功能,或允许上传简单的 cron 脚本,但这些途径通常只适合备份整站或指定目录,而不方便以增量方式传输更新过的内容。Linux 下成熟的镜像同步工具是 rsync,如果你的 web 主机允许 ssh 登录,则可以考虑使用 rsync 或其它类似工具。
  网上有很多说法认为 web 主机不允许跑 daemon、不允许开自定义端口,故而无法使用 rsync。其实不然,rsync 可以仅通过 ssh 连接而不需要开放额外的端口,服务端也可以借助 sshd 来启动而不需要作为 daemon 运行。我们需要的只是 ssh 登录以及运行自己上传的程序的权限。我使用的 Godaddy Economy Plan Hosting (Linux) 即属于这种情况。
  Godaddy 的 web 主机不提供 rsync 程序,我们可以从本地上传一个。需要注意上传的 rsync 二进制文件应该与你的 web 主机的平台一致,连接 libc、libpopt 等库的版本一致。对于使用 x86 版 CentOS 5.2 的 Godaddy 主机,我也直接在相同版本的 CentOS 中提取了一个 rsync 上传。这时,在客户端使用“-e”参数指定连接方式为 ssh,用“--rsync-path”参数指定服务端 rsync 所在的位置,即可借助 ssh 连接传输数据了。

  1. rsync -vzrtopgl --progress --delete -e ssh --rsync-path=/[remote_home_dir]/bin/rsync [username]@[hostname]:/[remote_home_dir]/html/ /[local_home_dir]/

  如果客户端为 Windows,则可以使用 Win32 下移植的 cwRsync,这个工具基于 cygwin 库但不需要安装整个 cygwin 环境,它同时包含了 Win32 版的 OpenSSH 客户端。上述命令无须修改即可在 Windows 下运行。
  rsync 解决了文件的单向的备份或镜像功能,但如果需要双向同步,更适合的工具是 unison。unison 使用 OCaml 语言开发,基于 rsync 算法对两端文件进行比较,将它们更新到一致的状态(最新的、不冲突的版本)。unison 可借助 socket、ssh 等连接方式,并支持多种操作系统。与 rsync 类似,我们需要向 web 主机上传一个 unison 二进制文件。官方只提供了最新版的源代码,需要自行下载到本地编译(事先安装 OCaml 编译器及 etags 工具)。服务端部署之后,客户端配置文件([config_name].prf)为:

  1. root = /[local_home_dir]/html/
  2. root = ssh://[username]@[hostname]//[remote_home_dir]/html/
  3. servercmd = /[remote_home_dir]/bin/unison

  在客户端执行 ./unison [config_name] 即可完成双向同步。注意 unison 要求服务端和客户端的主次版本号一致。
  如果客户端为 Windows,同样可以使用来自 cwRsync 的 ssh 命令。如果嫌这个 ssh 外加 cygwin 库的体积太大(~5M),另一种替代的方案是使用 Putty 提供的 Plink 工具。这是一个小巧的 Win32 ssh 客户端(276K),由于运行参数与 OpenSSH 不同,因此需要写一个批处理文件(ssh.bat)来封装:

  1. @Plink.exe [hostname] -l [username] -pw [password] "/[remote_home_dir]/bin/unison -server"

  并在 unicon 配置文件中指定 ssh 命令:

  1. sshcmd = ssh.bat

  此时运行 unicon,即可使用 Plink 进行 ssh 连接。
  无论使用 OpenSSH 的 ssh 还是 Putty 的 Plink,都可以借助公钥认证方式避免密码的输入。这样有利于定时备份和同步的自动化执行。具体方法不再赘述。

智能输入法软件的社会责任问题

2010/01/04 | 09:52 | 分类:IT杂谈 | 标签: | 637次阅读

  笑来老师前不久在 twitter 上多次讨论了两个话题:五笔与中医。于是,我于 1 月 1 日晚向他简要提了两句我对五笔和中医的理解[1][2]。1 月 2 日,笑来老师即发表博文称“现在的初学者最好别选五笔输入法”,不知算不算是对我的回应。那篇博文继而引发了一场令他心满意足的争论。感谢他在评论中提到了我的一篇旧文——尽管我也隶属于不赞同笑来老师那篇博文部分论点的行列。
  五笔与拼音作为两种思路迥异的汉字输入法,其争斗由来已久,我的观点已在那篇旧文中做了陈述。如果我有能力引导这场炒冷饭的争论,我不会再将五笔与拼音作为对比对象,而会将传统的、本地的、低智能的输入法(如五笔、郑码、Windows 全拼/双拼、智能 ABC)与新兴的、网络的、高智能的输入法(如谷歌拼音、搜狗拼音与五笔、QQ 拼音与五笔)作为对比对象。比较这二者,我认同后者中的很多理念必然成为未来输入法中的重要元素;但后者目前的技术实现、商业运营及其行业大环境,则不能令我满意。因此,我个人暂时选择传统的五笔,而对于所谓的智能输入法,谨慎观望与期待。
  我首先赞同智能化的大趋势,因为借助技术的进步来降低用户门槛、提高用户体验,是计算机历史发展的必然。对于笑来老师强调的 Google 那篇基于信息论的汉字输入法分析,我对其理论基础和技术愿景都是认可的。不同语言使用的字符集的信息熵不一致,在具有上下文的情况下,确实可以计算出“1 个汉字 ≈ 1.3 次击键”的公式。但对于经过长期历史演化形成的各种现代自然语言,我相信它们具有“表达相同的语义,击键次数基本相同”的特性——前提是所有语言都使用了基于上下文分析的智能输入法(想想手机上的 T9 英文输入法,它基于智能构词;看看国人开发的 Triivi,已经具备基于词组的智能匹配;再看看 eLocutor 这种为斯蒂芬·霍金教授设计的单键输入方案,成功地应用了基于语义的词语匹配)。因此,从这个角度说,即使是英文输入,未来的击键次数都有可能大幅减少。如果仅从输入效率和正确性角度来说,各国语言的输入法必然要选择智能化之路。只不过汉字的特殊性使它率先成为了探索的对象。
  无论借助机器性能的大幅提高,还是新的计算理论的突破,在单机上实现无误的上下文匹配的“1.3 键/字”输入方案都是很有可能的——但前提是语义连续、词汇库固定。语义分析是智能输入的基石,在输入离散内容(如花名册、生词表)时,语义分析随即失灵,智能优势不复存在。同时,再智能的算法也不可能预料“陈冠希”这种新名词的出现,新词入库需要外部机制解决。但在目前的技术条件下,互联网还没有进入自组织、自进化的智能阶段,所谓的社会计算仍然是程序驱动下的被动计算,所谓的网络语料库必然揉合了大量人工的或机械化程序的因素。作为一种过渡,我们可以接受现有的智能输入法;但作为一个技术愿景,它还有很长的路要走。然而,各种领域的智能化都会涉及一个“度”的问题:技术应该在多大程度上代替用户的思维?用户自己还需要保有哪些技能?技术的不恰当使用又会对这个行业乃至整个社会带来什么威胁?这些问题不得不牵扯到笑来老师不以为然的软件社会责任问题。
  首先,是用户对技术的可知、可控性。这有点类似 Richard Stallman 的自由观:你应该对保证你使用的工具是可理解的(当然,对于一般用户来说没有必要理解,但你不能放弃理解它的权力)、可限制其行为范围的。输入法作为一种较为基础而又相当重要的通用软件,应该由用户本人或者一套非专有的机制保证这一关键环节的可控性,而不能将其寄托在若干家专有的互联网公司身上。传统输入法的实践虽缺乏可知(不一定开源),但相对可控(没有联网操作)。我们应当期望智能输入法未来不再受控于专有技术和单一机构;即使依赖于网络,也能够在各类软硬件平台上出现一致的、无用户接口级差别的实现,让用户不再依赖于具体的产品。这一点类似于 Linux 之于 Windows——开源是次要的,派生和商业化也是可行的,但保障自由是关键的。
  其次,汉字输入是否需要作为一种技能而存在,这有待商榷。图形界面的出现让用户不再需要记忆烦琐的命令、Web 的出现让用户不再需要使用其它单调的网络信息协议,用户放弃这类技能是顺理成章的,因为在这些情况下技术对于一般用户来说是生产工具而非劳动对象,应当对用户保持简单和透明。但汉字输入究竟属于一般性的工具,还是属于公民语言文字技能的组成部分,这个定位会决定智能输入法应该智能到什么程度。如果它是语言文字技能的一部分,那么除了快速、正确之外,还有必要保证精确,即在掌握一个汉字的精确发音、写法的前提下,再掌握它的某一项精确的数字化属性,就算单字也可精确录入。目前而言,形码基本符合这一属性,而基于拼音的智能输入法反而更像一种“听写法”、“意识流记录法”,而非文字数字化技能。
  再次,是五笔之父王永民教授老生常谈的汉字教育和文化传承问题。王教授所谓的“拼音毁灭文化”的确言过其实、危言耸听,但目前已经被媒体关注的错别字涌现、提笔忘字等,确实成为了一种智能化引发“网民病”。这一点是输入法“简化记忆负担”带来的副作用,因此智能输入法至少不适合在语文教育的基础阶段推广。但因噎废食不是办法,最好依靠技术之外的社会方法来预防这些社会问题的发生。也许市场的细分可以缓解这一问题:针对一般网民或文秘的输入解决方案(智能输入法)、针对古籍或户籍等离散内容的输入解决方案(形码+基于专用库匹配)、针对速记和同传的输入解决方案(速录机),以及适合文化教育的解决方案(这可能不是单纯的输入法,而是与传统教育结合的整体解决方案)。
  最后,我要说的是当前软件行业的大环境给汉字智能输入法笼罩的阴影。上世纪末本世纪初,刚刚形成气候的中国共享软件生态圈就随着互联网泡沫的破灭而急剧缩水。然而中国民间的软件行业却没有因此销声匿迹,相反,它们探索出了一条“中aaa色”的发展模式:免费是王道(知道自己斗不过盗版);收费靠娱乐(网站形象秀和网页游戏的收入恐怕远大于商务邮箱);功能一定大而全(媒体播放器不管有没有侵权也要支持所有格式);界面一定酷而炫(杀毒软件也需要支持换肤、有卡通助手);对用户要体贴(帮盗版 Windows 用户安装安全补丁,屏蔽“黑屏”补丁);对同行不手软(输入法的强行排序、安全软件的误导性“警告”);对上游要服帖(建设产业链,有钱大家赚);无论何种应用,联网都是必须(还记得去年的“暴风门”吗),一方面可以向用户推送广告(人之常情,可以理解),另一方面则要对用户的行为乃至数据进行收集上报(名曰提高用户体验,但谁知道他们在进行什么勾当)……我并不否认“中aaa色”有相当的可取之处,但其中的某些畸形确实是影响这个行业进步的障碍。我痛恨某些厂商在这一过程中出于自身利益及其它不可公开的目的对用户进行的不良引导,这幅图描述了我的担忧。具体到现有的智能输入法软件,看看上面的多少条可以直接套用呢?笑来老师选择 Google 搜索而非百度搜索的原因不必多说,但谁又能保证这个号称“不做恶”的巨人不会入乡随俗?如果这样的大环境不改变,即使技术的进步使得无误的智能输入成为可能,这类涵盖了太多非功能因素的智能输入法也终将成为少数机构实现自身利益的工具。
  总之,中国人的计算机中“输入层”必不可少,它需要尽量屏蔽语言障碍,让中国人更加自然地使用计算机。但“输入层”决不能不受到社会责任和用户能力制约。

《长一岁》

2009/12/31 | 23:44 | 分类:生活空间 | 标签: | 340次阅读

  雪花冰花腊梅花,
  喜鹊飞来叫喳喳,
  叫弟弟,叫妹妹,
  都是爸妈的好宝贝,
  过了新年长一岁!

  80 后、90 后,有多少人还记得这个儿歌。记得没错的话,这篇应该是经典的《365 夜儿歌》的第一篇吧。把这个作为祝福短信发给同学,就怕他们对“长一岁”有所误会。
  2009,自己是忽悠了一点输出,但相比之下,一个不再走进课堂的研究生,如何从“去中心化”的输入源汲取信息并有效加工,生成切实的输出,成为了新的挑战。
  2009,我终于做了一些自己长期以来想做的,但可能没有什么共性意义的事。这一年也算是我自 2004 年暂住北京以来,最忙却最能忙里偷闲地去认识这个城市的一年。
  2009 年就要过去了,有多少人很怀念它呢?坐在实验室里不用管什么伪金融危机的影响是否继续显现,因为它从来没有对我们产生过影响。值得怀念的,倒是一个与我们相关的产业的黄金十年的逝去。但不能因此而叹息,因为人和社会总是在波浪式前进、螺旋式上升。有的人已经找到了下一个十年的黄金,而我们也需要考虑自己的一摊子事如何应对新的机遇和挑战。
  2010,也许“云”只是一个传说,“云地一体化”才会使得“明月照关山”吧。
  2010,做一个有文化的人。

页面存档: 上页 1 2 3 4 5 6 7 8 ...44 45 46 下页