字形書體及筆順
字形差異
漢字具有多態性。同一個漢字,在不同的標準、不同的字體下,存在一定的差別。有些字形上的差別,通過 Unicode 的離散來實現。比如户
戶
戸
三字,在 Unicode 裡被安排在了不同的碼位上,故而實現了分離。但是很多漢字的不同字形,卻共用 Unicode 碼位(這其實是 CJK 的初衷),那麽這個字到底應該依照哪個標準來拆分,便成了問題。
宇浩輸入法的規定是:
- 每個字都有一種標準拆法,字形標準取自:The Unicode Standard, Version 15.0。各地區優先級降序爲:GTHJKV,即陸、臺、港、日、韓、越。也就是説,如果存在大陸提交的標準,就依照大陸標準。如果大陸沒有提交標準,就按照臺灣標準。依此類推。
- 每個字都可能有若干兼容拆法,目的是兼容臺灣、香港、大陸古籍的字形標準。比如
起
=走己
(大陸標準)和起
=走巳
(臺灣標準)兼收。
書體之别
某些字根,即使在相同的規範下,也會楷體和宋體的不同而産生微小差異。這些差異往往會影響對於「散」「連」的判斷。我們主要以宋體爲準(也是 CJK 的書體)進行拆分,同時有以下考量。
散連認定
⼇
作頭時的丶一
,無論書體,一概視爲「散」。✅ ❌䒑
作頭時的丷一
是艹
的草化,無論書體,一概視爲「連」。✅ ❌龷
在字中時的艹一
,無論書體,一概視爲「連」。✅ ❌
康熙部首
「康熙部首」指《康熙字典》中使用的二百一十四個部首。由於字形演化,它們會和當代正字字形産生差異。
宇浩拆分採取的一般策略是:
- 如果此部首爲字根,則直接接歸併到相應的字根上。
- 如果此部首不爲字根,則按實際情況拆分。
這裏將字形差異和拆分方法舉例如下:
康熙·漢字 | 陸標 | 臺標 | 港標 | 日標 | 韓標 |
---|---|---|---|---|---|
⼇·亠[1] | 亠 | 亠 | 亠 | 亠 | 亠 |
⾓·角 | ⺈用 | ⺈⺆土 | ⺈⺆土 | ⺈⺆土 | ⺈⺆土 |
靑·青 | 龶月 | 龶月 | 龶月 | 龶月 | 靑 |
⽻·羽 | 习习 | 习习 | 习习 | 习习 | 习习 |
⽾·耒 | 丰八 | 丿未 | 丿未 | 丿未 | 丿未 |
襾·覀[2] | 覀 | 覀 | 覀 | 覀 | 覀 |
⽏[3] | 十 | 十 | 十 | 十 | 十 |
筆順先後
標準選取
宇浩輸入法的筆順選取,依照大陸標準《GF 3003-1999 GB13000.1 字符集漢字字序(筆畫序)規範》。
同時,對於臺灣標準拆分,使用臺灣常用的筆順。
例
比如攀 = 木乂乂木手
(大陸標準)和攀 = 乂乂木木手
(臺灣標準)兼收。
比如與 = ⺽丂丄八
(大陸標準)和與 = 丂丿⺽一八
(臺灣標準)兼收。
包圍結構
左下包圍的字,一般先寫左側,再寫右側,除了以下幾例:
近 = ⿺辶斤
視作上下結構⿱斤辶
.亾 = ⿺𠃊人
視作上下結構⿱人𠃊
.吳 = ⿱⿺㇉口大
視作上下結構⿳口㇉大
.
先中間後兩邊
當漢字中出現類似 EAE
或 EAƎ
這樣的包夾情況,其筆順會因爲地區産生差異。
大陸標準中,需分情況討論:
フ🈑
、冫🈑
、🈑匕
、🈑言🈑
、🈑コ
:先中間後兩邊。木🈑木
、纟🈑纟
、車🈑車
、匕🈑匕
、🈑ヨ
、弓🈑弓
及其他:從左往右書寫。
台灣標準中,一律先中間後兩邊。
局部筆順
宇浩拆分檢查全局筆順的同時也檢查局部筆順。
局部筆順最優化,指的是不被打斷的字根儘量多。這是爲了防止以下情況,一個字 A 有 X Y 兩個離散部分構成,X 部分拆 X1 X2,根少但不符合筆順。Y 部分,可以拆 Y1 Y2,符合筆順,且字根相交;或拆 Y3 Y4,不符合筆順,但字根分散。如果必須滿足整體符合筆順,則 Y 拆 Y1 Y2 雖然符合筆順,但由於 X 不符合筆順,A 整體依舊不符合筆順。那麽 Y 應該拆成 Y3 Y4,因爲能散不交。這樣一來,Y 作爲獨體字和 Y 作爲 A 的一部分時,拆分不一致,我們需要避免這種情況。這就是檢查局部筆順的原因。