返回列表 回复 发帖

[灌水] 几种形码的重码比较(附 重码统计工具)

五笔86(极点6.5五笔词库,去掉所有的含“/”的单字编码)

超强二笔(小小输入法自带码表)

郑码(小小输入法自带码表)

二笔(小小输入法自带码表)

华文块块(官方自带码表,有改动)

总词条:76575

重码条目:8368

重码:19033

重码率:10.93%

a       13373

b       7842

c       8191

d       14215

e       9335

f       17258

g       19095

h       11739

i       12608

j       10588

k       11631

l       8175

m       10526

n       12974

o       6040

p       10258

q       14233

r       11678

s       10089

t       18180

u       13819

v       8200

w       15650

x       8011

y       16641

z       0

总词条:104420

重码条目:9874

重码:38158

重码率:9.46%

a       5518

b       17457

c       19210

d       17327

e       5609

f       17410

g       19626

h       17896

i       16510

j       24307

k       13512

l       19010

m       12968

n       10020

o       7087

p       12087

q       17714

r       9567

s       21858

t       17042

u       6601

v       5918

w       12172

x       18873

y       24127

z       21582

;       4465

'       0

,       4804

.       3838

/       4431

总词条:42962

重码条目:5653

重码:12589

重码率:13.16%

a       6356

b       7456

c       4121

d       6796

e       6666

f       5955

g       6045

h       3780

i       5119

j       7718

k       8907

l       6499

m       8944

n       6169

o       8093

p       3487

q       3532

r       7281

s       8453

t       3629

u       6141

v       6259

w       7557

x       5679

y       7220

z       7187

总词条:65073

重码条目:8603

重码:28213

重码率:13.22%

a       3175

b       9815

c       10823

d       10570

e       4450

f       10892

g       12048

h       10859

i       11927

j       16168

k       8394

l       11420

m       7528

n       5903

o       4360

p       7245

q       10658

r       5494

s       13261

t       10224

u       4775

v       3293

w       6726

x       10861

y       15549

z       13205

;       3031

'       706

,       3037

.       2548

/       2947

总词条:65842

重码条目:11569

重码:26784

重码率:17.57%

a       11075

b       8277

c       9611

d       10213

e       11848

f       13041

g       11459

h       13530

i       10240

j       10659

k       12684

l       11780

m       7382

n       7461

o       9393

p       8909

q       6127

r       8496

s       13225

t       10632

u       7196

v       13019

w       9053

x       9344

y       11110

z       2159

 

(重码率=重码条目÷总词条×100%

 

由此可见,由于超强二笔多用了五个键参与编码,重码率是最低的。

而五笔86采用25键,重码很少,应该是效率最高的。

 

其它输入法没有测过,故此仅作娱乐贴。

指手使用及重码统计.zip (7.18 KB)

重码统计工具,二笔群里下载的。

都是静态的统计,如果有动态的统计就会更有价值了。另外,由于词组条数不同,重码率的比较参考性有待商榷。
QQ超级群47328800
二笔(小小输入法自带码表) 这个条目的比法不对。。 青松二笔的不能按这个来算。因为它的uv特殊的特点,从码表上来说,增加了它的重码,但是,实事上,打字的时候,uv是用来减少,甚至消灭重码的。
二笔重码率做到这么低不错了。
正经的时候是个君子,颠疯的时候是个痞子

原帖由 prc_star 于 2009-7-2 22:03 发表 都是静态的统计,如果有动态的统计就会更有价值了。另外,由于词组条数不同,重码率的比较参考性有待商榷。

 

静态与动态区别在哪?

 

什么情况下的重码率叫动态重码率?

 

愿闻其详。

 

比如 王码86中 教师,老师 ,都是 才是 是重码,如果我连续打这4个词组20遍。

动态重码率是多少?

 

若再打一篇2000字文章,这4个词组的使用次数也是各20次。问动态重码率是如何计算?

[ 本帖最后由 极点爱好 于 2009-7-3 00:44 编辑 ]
易码五笔   交流群 59435013
笔画链,末码末笔,补码。
笔画区码:末笔画所在键位区(一丨丿丶乙 -> 12345)
笔画位码:末码中笔画有相交为3,末码就是一个单笔画为2,末码中笔画不交也不单为1。
易补码 =笔画区码// 笔画位码

做喜欢做的

动态重码率应该是打足够多的内容后所做的重码的统计。

但那更难比对的,谁知道打的是什么内容呢?

 

我认为,10%的重码率跟20%的重码率在打字的过程中差别并不大,因为打到四码后,需要选择的重码也只有那么几项了,打多了,甚至可以记住哪个编码的位置,一样利于盲打。

小小自带的郑码,词库重码率好高
单字群:〖简单爱〗 83541293     〖张码群〗 77313896
楼主的帖子里有几点问题。 ■ ①是词库大小不同,重码率不可直接比较。如果都编码一个两亿词库,那么重码率就都近于100%了;如果都编码随机的两个词组,那么重码率就都是0了。词库大小不同,这个指标不可直接比较的。 ■ ②另一个是即使在同一个编码方案下,同一个词库规模,词组重码也会因词库作者的刻意删重程度而有所不同。谁心狠,谁就能做到0.00%或接近0.00%。 ■ ③就是没有考虑使用频率。比方说我的“敞篷车”和“洫”是重码,都是itlg。但后一个字,我一生都不会用到。前一个词,我一生可能也只会用到那么十几次。这个重码对,与五笔中的buje“聪明”、“联盟”这个重码对相比,其重要性不可同日而语。把这些出现频率不同的重码放在一起以同样的加权进行计算和统计,是不科学的。 ■ ④超强二笔,并不是最低的,相反,我估计是最高的。因为超强虽然用了30个键,但其中很多区域都没有开发利用。这是受制于首码为音码所造成的先天顽疾,后天上无法治愈。汉字的声音分布及其不均衡。S、T、Z、Y使用最多。O、V、U、A等等则鲜有出现。首码为音码的输入法,其重码率(无论单字还是词组,无论动态还是静态)指标上,都是会比较尴尬的。 ■ ⑤你没有考虑编码空间。超强的词组编码空间为30^4。五笔的词组编码空间为25^4。足足是五笔的2.07倍。多用了一倍还多的空间,才达到了近乎相同的词组重码率(且不说这个近乎相同的重码率,还是靠更大力度的刻意删重这种类似作弊的举动而得到的)。这个编码对词组编码空间的浪费实在是太惊人了
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
如果真正想比较一个输入法离散词组的能力,我的建议是,使用一个第三方词库。比如从北京语言大小的词频表中,选取前15000个词组。进行编码测试。这样才是一个足够公平足够科学的实验。有关材料可以在我从前发过的一个帖子中下载
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203

利用第三方词库进行的词库重码比较

以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
以上意见,供楼主参考。
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
另外还有一点就是,华文块块的词组重码离散能力,其实是略强于86五笔的。这一点,在你使用一个足够公平的、与参与测试的两个输入法都没有关系的第三方词库测试其重码率的时候,就自然可以看得出来了。编码一个2万大小的第三方词库,华文块块的重码率大概是86五笔90-95%左右。以前我测试过一次。隐约记得是如此。化文块块的”自然重码率“(即不刻意删除重码所呈现的重码率),之所以能比86五笔要低,是因为其首码也采用了型。并且增加了一些大字根。
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
楼上我偶像啊。
正经的时候是个君子,颠疯的时候是个痞子

回复 #13 五爱 的帖子

岂敢 岂敢
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
刻意删重,去重,这个里面的猫腻,是很多输入法制作都喜欢玩儿的。我有一个愿望,就是以后的输入法作者,都能以诚信道德为重,以科学和正义来要求自己。不要玩儿这一套骗人的把戏
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
另外,那个郑码的词组重码率,其实是比王码还有低一些的。以公平的测试方法计算的话。可惜的是,郑码的字词码是两套。这个在我看来,也有点点赖皮。如果以编码单字全码的方式来编码词组的话,郑码的词组重码率是略高于王码的
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203
总之,楼主的表格,可以这样概括:越是词组重码率难看的输入法,越喜欢用刻意删重的手段来伪装自己的词库。所以呢,最后的排列结果,反而与大家的真实实力排名完全相反。
以无水水        欢迎加入打字爱好者小组
以非灌灌         QQ超级群47733203

原帖由 暗夜小鱼 于 2009-7-3 10:38 发表 楼主的帖子里有几点问题。 ■ ①是词库大小不同,重码率不可直接比较。如果都编码一个两亿词库,那么重码率就都近于100%了;如果都编码随机的两个词组,那么重码率就都是0了。词库大小不同,这个指标不可直接 ...

 

我看重码只从表象上去研究,而暗夜小鱼是从根本上去剖析重码,

小鱼研究重码的功底真令人佩服!在下学习了。

返回列表