宇浩拆分禁手
拆分之「禁手」,指的是無論任何時候都不應當出現一些拆分情形。它高於一切拆分規則。一旦某一個拆分候選中出現了「禁手」,則直接淘汰。禁手包括:散件不分割、豎向不包夾、橫間不穿心。
散件不分割
有一部分字根,本身存在離散的部件,比如戈字右上的點、犬字的右上的點、三字的三個橫等等。爲了保證拆字的直觀,保證檢字(尤其是大字集下)的便捷性,我們需要對字根的連續性做出要求,並將它認定爲字根的内在屬性。
字根的連續性定義如下:
非連續寫成、且被全包圍結構或半包圍結構分割的部件,不視爲一個字根。
例
为字的兩點不可以被視爲字根两点,因爲它們非連續寫成、且被半包圍結構分割。
✅ ❌
卵字不拆卯⺀而拆成卯丶丶,因爲卯字的兩點非連續寫成、且被半包圍結構分割。
✅ ❌
豎向不包夾
不少字根中存在若干分散的部件。
例
二和三中的橫畫是分離的。
合分爲了人 一 口三個部分。
儿分爲了丿 乚兩個部分。
這給了它們包夾其他字根的可能。如亘可看成二包夾日。
爲了防止拆分不直觀,我們做出規定,一個字根可以橫向包夾,但不能縱向包夾。
例
卿 = 卯彐厶
✅ ❌
胤 = 儿幺月
✅ ❌
亘 = 一日一
✅ ❌
僵 = 亻一田一田一
✅ ❌
這是因爲,漢字的左右對稱多於上下對稱。左右包夾是可預測的,但上下包夾往往不可預測,必須要觀察到最下方。
如果設置了衣字根
某些輸入法設置了衣下字根,但亠和𧘇的出現並不總是成對的,必須看到最下方才能正確判斷。
橫間不穿心
爲了使拆分更加直觀,符合筆順,防止字根交叉粘連,我們規定:
工土士干千禾キ王壬龶丰末未生古矢缶早羊虫等字根不允許在一一間穿插其他字根。
這個規定在常用字中比較少用。
例
再不拆王冂,而拆一冂土
✅ ❌
垂不拆壬龷,而拆千龷一
✅ ❌
禹不拆丿虫冂,而拆丿口冂<丄丶>
✅ ❌
妻不拆 キコ女或龶乛女,而拆十彐女。
✅ ❌ ❌
