浅析小词库的本质—醉翁之意不在酒
作者:SeaLaugh
偶得半日闲,决定把以前已经写了一半的关于小词库的文章写完,就当是拉家常了,呵呵。本文仅代表个人观点
在分析小词库的本质之前,我们先来对这个问题进行界定,我说的小词库是指任何形码的小词库,也就是说不单指五笔的小词库,这个共性是由形码的特点所决定的。由于字和词的输入是共用编码空间的,也就是同样编码的字和词会有重码,所以我们把单字和词组看作是一个有机的组成部分。在目标是提高输入速度,增强输入舒适度的前提下,换个角度来看待小词库的本质。
这里还有一个小的插曲,也就是输入速度与输入舒适度是否不可兼得的问题,我想大家很容易联想到形码的高速与音码的易学性,但注意易学性只是舒适度的一部分,这里说的舒适度是指广义的、一切应被包括的感官上的舒适度。很多人认为小词库有打空的问题,所以大、中型词库应更舒适,应该说对于词组输入率较高的人是这样的,但随着后面我们对小词库本质的揭示,你就会发现,原来我们的看法都是从一个角度来看的,如果从小词库的本质这个角度来看,不但不存在打空的问题,而且其输入流畅度要高于大、中型词库,最重要的是越步入高级阶段,输入速度与输入舒适度将不再对立,并且从反比走向了正比,是一个真正的质变,我想这是对词库依赖性较强的人所想不通的,后面我们会逐层分析。
用形码并且有一定输入速度的朋友都明白,提高输入速度的过程其实就是一个提高条件反射强度的过程,强度越高,字与词的界限就越模糊,也就产生了“字为字,词亦为字”的情况,因为字是绝对固定的编码,而词是相对字的次级编码组合,这个组合的过程需要时间,但当条件反射达到了很高的强度时,在大脑中就不再需要这个组合的过程了,此时已经把这个词的相对组合编码变成了用字的固定编码的方式来记忆了,例如“一个”这个词,你一定不用过多的想,也不需要组合的时间就能很快打出它的词组编码,因为对于词组方式输入的人来说这个词太常用了,你已经达到了高强度的条件反射,但“壹个”这个词呢?(我们假定你的词库里有这个词)很显然这个词远远没有“一个”常用,所以即使你对形码单字的编码烂熟于胸,也难以用条件反射式的速度打出一个相对不熟悉的编码的组合,即使是极短的思考与停顿时间,其速度也将慢于条件反射式的速度数倍不止。另一方面,对于“打词派”来说,打“一个”很舒服,其舒适度很高,但打“壹个”就不那么舒服了,因为这个词不常用,打出它还需要附加的时间。
从词长的角度来看,二字词是最常用的,词组越长在一般情况下词频就越低,如果你打“中国”毫不费力的话,那么打“阿拉伯联合酋长国”就不会那么从容了,长词有两个劣势,一是组合效率低,二是视觉识别干扰大:对于非条件反射式的记忆,你需要先打出前三个字的第一个编码,再跨越中间的部分找到最后一个单字,然后再将其第一个编码打出,显然这种组合编码的效率是很低的;从视觉识别的角度来看,越长的词干扰就越大,当我们看到这个词的第3个字时,还不能确定其是否为一个完整的长词,我们需要有再往下识别的时间,应该说一直到“国”字也无法确认,最终是我们看到了国字后面的部分与前面毫不相干了,我们才能确定这个长词的具体长度,但你要明白,这时我们还没有开始打编码,前面的时间都浪费在了视觉识别上,后面我们还需要按1、2、3、末的规则来组合,第一个劣势中已经说明了这个组合的效率又是很低的,可想而知我们在打长词时浪费了多少时间。即使我们对这个长词已经达到了高强度的条件反射式的记忆,但你会发现只抵消了第一个劣势,而视觉识别的时间问题仍无法解决,人的视觉集中点只有一个,在一个最短的单位时间内只能看到一个单字,其他的文字全部是余光,二字词还不那么明显,到了三字词以上的时候便明显无法顾及周全了。这也就出现了连达到条件反射式的记忆都无法避免的弊端,长词的优势在于其组合的确定性,至少在词库正确的情况下,上面那个词你不会打成“阿拉伯联合球长国”,很显然如果不考虑速度因素,这个优势是属于音码的,音码不追求条件反射而追求高舒适度和确定性,单字则不是音码的强项,这个舒适度的扩展还体现在整句识别上,形码和音形的特点决定了它们有着很强的互补性。
醉翁之意不在酒,在于山水之间。由此引申,字有限而词无穷,不常用的,或是没有形成条件反射的词,相比之下打起来就不会那么舒适。也就是说,只有字才能全部达到条件反射式的记忆,而词是根本不可能的,条件反射与非条件反射的对比前面已经介绍过了,这就引出了高速小词库的本质——小词库之意不在词,而在于单字之间。如果小词库的主导输入方式为词组的话,那么相对大、中型词库而言除了重码少之外没有任何优势,而对于依赖词组输入的人来说更多追求的是舒适度,或者说是舒适度与速度的均衡,这在以速度见长的小词库身上是难以实现的,也就出现了很多大词库派的人所说的小词库不好用、词太少等现象。所以小词库的核心是单字。更深入的讲,如果以高速为主要目标的话,小词库不能称为真正意义上的词库,而是把词组看作是单字。
作者:SeaLaugh
偶得半日闲,决定把以前已经写了一半的关于小词库的文章写完,就当是拉家常了,呵呵。本文仅代表个人观点
在分析小词库的本质之前,我们先来对这个问题进行界定,我说的小词库是指任何形码的小词库,也就是说不单指五笔的小词库,这个共性是由形码的特点所决定的。由于字和词的输入是共用编码空间的,也就是同样编码的字和词会有重码,所以我们把单字和词组看作是一个有机的组成部分。在目标是提高输入速度,增强输入舒适度的前提下,换个角度来看待小词库的本质。
这里还有一个小的插曲,也就是输入速度与输入舒适度是否不可兼得的问题,我想大家很容易联想到形码的高速与音码的易学性,但注意易学性只是舒适度的一部分,这里说的舒适度是指广义的、一切应被包括的感官上的舒适度。很多人认为小词库有打空的问题,所以大、中型词库应更舒适,应该说对于词组输入率较高的人是这样的,但随着后面我们对小词库本质的揭示,你就会发现,原来我们的看法都是从一个角度来看的,如果从小词库的本质这个角度来看,不但不存在打空的问题,而且其输入流畅度要高于大、中型词库,最重要的是越步入高级阶段,输入速度与输入舒适度将不再对立,并且从反比走向了正比,是一个真正的质变,我想这是对词库依赖性较强的人所想不通的,后面我们会逐层分析。
用形码并且有一定输入速度的朋友都明白,提高输入速度的过程其实就是一个提高条件反射强度的过程,强度越高,字与词的界限就越模糊,也就产生了“字为字,词亦为字”的情况,因为字是绝对固定的编码,而词是相对字的次级编码组合,这个组合的过程需要时间,但当条件反射达到了很高的强度时,在大脑中就不再需要这个组合的过程了,此时已经把这个词的相对组合编码变成了用字的固定编码的方式来记忆了,例如“一个”这个词,你一定不用过多的想,也不需要组合的时间就能很快打出它的词组编码,因为对于词组方式输入的人来说这个词太常用了,你已经达到了高强度的条件反射,但“壹个”这个词呢?(我们假定你的词库里有这个词)很显然这个词远远没有“一个”常用,所以即使你对形码单字的编码烂熟于胸,也难以用条件反射式的速度打出一个相对不熟悉的编码的组合,即使是极短的思考与停顿时间,其速度也将慢于条件反射式的速度数倍不止。另一方面,对于“打词派”来说,打“一个”很舒服,其舒适度很高,但打“壹个”就不那么舒服了,因为这个词不常用,打出它还需要附加的时间。
从词长的角度来看,二字词是最常用的,词组越长在一般情况下词频就越低,如果你打“中国”毫不费力的话,那么打“阿拉伯联合酋长国”就不会那么从容了,长词有两个劣势,一是组合效率低,二是视觉识别干扰大:对于非条件反射式的记忆,你需要先打出前三个字的第一个编码,再跨越中间的部分找到最后一个单字,然后再将其第一个编码打出,显然这种组合编码的效率是很低的;从视觉识别的角度来看,越长的词干扰就越大,当我们看到这个词的第3个字时,还不能确定其是否为一个完整的长词,我们需要有再往下识别的时间,应该说一直到“国”字也无法确认,最终是我们看到了国字后面的部分与前面毫不相干了,我们才能确定这个长词的具体长度,但你要明白,这时我们还没有开始打编码,前面的时间都浪费在了视觉识别上,后面我们还需要按1、2、3、末的规则来组合,第一个劣势中已经说明了这个组合的效率又是很低的,可想而知我们在打长词时浪费了多少时间。即使我们对这个长词已经达到了高强度的条件反射式的记忆,但你会发现只抵消了第一个劣势,而视觉识别的时间问题仍无法解决,人的视觉集中点只有一个,在一个最短的单位时间内只能看到一个单字,其他的文字全部是余光,二字词还不那么明显,到了三字词以上的时候便明显无法顾及周全了。这也就出现了连达到条件反射式的记忆都无法避免的弊端,长词的优势在于其组合的确定性,至少在词库正确的情况下,上面那个词你不会打成“阿拉伯联合球长国”,很显然如果不考虑速度因素,这个优势是属于音码的,音码不追求条件反射而追求高舒适度和确定性,单字则不是音码的强项,这个舒适度的扩展还体现在整句识别上,形码和音形的特点决定了它们有着很强的互补性。
醉翁之意不在酒,在于山水之间。由此引申,字有限而词无穷,不常用的,或是没有形成条件反射的词,相比之下打起来就不会那么舒适。也就是说,只有字才能全部达到条件反射式的记忆,而词是根本不可能的,条件反射与非条件反射的对比前面已经介绍过了,这就引出了高速小词库的本质——小词库之意不在词,而在于单字之间。如果小词库的主导输入方式为词组的话,那么相对大、中型词库而言除了重码少之外没有任何优势,而对于依赖词组输入的人来说更多追求的是舒适度,或者说是舒适度与速度的均衡,这在以速度见长的小词库身上是难以实现的,也就出现了很多大词库派的人所说的小词库不好用、词太少等现象。所以小词库的核心是单字。更深入的讲,如果以高速为主要目标的话,小词库不能称为真正意义上的词库,而是把词组看作是单字。