归并聚类
归并有两种:
- 依字源归并。指的是将字源相关的部首(部件)视为同一个字根,赋与相同的编码(大码+小码)。
- 依字形归并。指的是将字形相近的部首(部件)视为同一个字根,赋与相同的编码(大码+小码)。
聚类,指的是将字形相近的部首(部件)视为同一类字根,赋与相同的大码。
宇浩的字根设计,是轻归并、重聚类的。
选择「重聚类」的原因,主要是对了降低初学者的学习难度。初学者,要同时记忆字根编码、拆分规则、编码规则。这个思维负担很大,因此,将相似字根放在一个大码上,有利于联想记忆。
例
以下四字的第一个字根,都包括了广
的特性,因此放在同一个大码上,有利于记忆。用户只要记住广
的位置,便知道了其他三个字根的位置。
以下四字的第一个字根,都包括了丆
的特性,因此放在同一个大码上,有利于记忆。用户只要记住丆
的位置,便知道了其他三个字根的位置。
以下四个字根,都包括了目
的特性,因此放在同一个大码上,有利于记忆。用户只要记住目
的位置,便知道了其他三个字根的位置。
选择「轻归并」的原因,主要是以下几点:
一、字源归并有时会导致繁简字根(部首)同码。好处是用户可以少记20个繁体字根鳥烏魚馬風來車長門鬥齒飛見貝鹵僉韋咼黽
。缺点是部分繁简汉字无法有效分离,和宇码设计理念不符。
例
按字源归并后,以下汉字必定重码。
二、部首字源归并会导致大量字形不相近的字根(部首)被识别出来,成为「隐藏根」,这部分字根主要位于大字集。有时候,这些根比较直观;但有时候,需要一定经验才能知道这个根是否已经被归并,还是需要继续拆分。增加记忆负担,降低大字集检字效率。比如:乕𠁅處𭅍𭙧
等字的头部,虽写法相异,但源头相同。打字中,它们是否是一个字根,需要用户有一定的了解。
三、因为汉字演变,部分部首写法相同,但源流各异;部分部首写法相异,但源流相同。这可能会造成用户的记忆负担。
当然,归并还是有相当价值的,特别是当字形非常接近,一般人甚至无法意识到其区别的时候,就算其字源不一、读音迥异,也应当归并。
例
以下两字的右边部首,一个是𠤎
(ㄏㄨㄚ),一个是匕
(ㄅㄛ)。较难区分,故而合为一个字根匕
。