歸併聚類
歸併有兩種:
- 依字源歸併。指的是將字源相關的部首(部件)視爲同一個字根,賦與相同的編碼(大碼+小碼)。
- 依字形歸併。指的是將字形相近的部首(部件)視爲同一個字根,賦與相同的編碼(大碼+小碼)。
聚類,指的是將字形相近的部首(部件)視爲同一類字根,賦與相同的大碼。
宇浩的字根設計,是輕歸併、重聚類的。
選擇「重聚類」的原因,主要是對了降低初學者的學習難度。初學者,要同時記憶字根編碼、拆分規則、編碼規則。這個思維負擔很大,因此,將相似字根放在一個大碼上,有利於聯想記憶。
例
以下四字的第一個字根,都包括了广
的特性,因此放在同一個大碼上,有利於記憶。用戶只要記住广
的位置,便知道了其他三個字根的位置。
以下四字的第一個字根,都包括了丆
的特性,因此放在同一個大碼上,有利於記憶。用戶只要記住丆
的位置,便知道了其他三個字根的位置。
以下四個字根,都包括了目
的特性,因此放在同一個大碼上,有利於記憶。用戶只要記住目
的位置,便知道了其他三個字根的位置。
選擇「輕歸併」的原因,主要是以下幾點:
一、字源歸併有時會導致繁簡字根(部首)同碼。好處是用戶可以少記20個繁體字根鳥烏魚馬風來車長門鬥齒飛見貝鹵僉韋咼黽
。缺點是部分繁簡漢字無法有效分離,和宇碼設計理念不符。
例
按字源歸併後,以下漢字必定重碼。
二、部首字源歸併會導致大量字形不相近的字根(部首)被識別出來,成爲「隱藏根」,這部分字根主要位於大字集。有時候,這些根比較直觀;但有時候,需要一定經驗才能知道這個根是否已經被歸併,還是需要繼續拆分。增加記憶負擔,降低大字集檢字效率。比如:乕𠁅處𭅍𭙧
等字的頭部,雖寫法相異,但源頭相同。打字中,它們是否是一個字根,需要用戶有一定的瞭解。
三、因爲漢字演變,部分部首寫法相同,但源流各異;部分部首寫法相異,但源流相同。這可能會造成用戶的記憶負擔。
當然,歸併還是有相當價值的,特別是當字形非常接近,一般人甚至無法意識到其區別的時候,就算其字源不一、讀音迥異,也應當歸併。
例
以下兩字的右邊部首,一個是𠤎
(ㄏㄨㄚ),一個是匕
(ㄅㄛ)。較難區分,故而合爲一個字根匕
。