佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 1411|回复: 2

中文輸入法的分類

[复制链接]
发表于 20-9-2021 11:40 AM | 显示全部楼层 |阅读模式
本帖最后由 lunglung 于 20-9-2021 02:47 PM 编辑

    鍵盤時代,打字取代寫字,打字的輸入法等同電子書法、電子寫字。方法選用錯了,是會影響中文字的使用的,這跟小學入學學寫字一樣重要,它要能繼承一年級學寫字的成果。否則,等於學寫字未學完成。
    中文輸入法不能單純地視作電腦操作,而應算作是中文的文字學範圍內,它研究如何找、選出基本部件筆劃(字根),分類組擠入廿六文字鍵作代表。
    卅多年來一直找尋一種完美的中文輸入法,如英文般打字母就能拼組成一個單字。字根總數應限制在一百左右,這是人對一事件之元素量記憶極限;而且可打出有史以來的全部中文字(祗能應付二萬字的是殘障法)。英文結構祗有前後一維(左右線性)字母排列,而中文字二維結構有左右上下外內,需要用基本部件方式組合。
    在千多種的中文輸入法中,大致有以下的設計之法:
一、音碼:使用音符來作索引,這基本上就不是真正的中文輸入,而是藉音來請電腦找字選字。中文以形表義,音用久生四系電腦病:不能盲打盯屏傷眼;認形退化同音錯字;共同語限制忘亡方言祖語(共同語四調一千二百音;方言六七八九調比多半至二倍半的音);漢拼上百缺失、字母無字形筆劃、用歐化視野看自家漢字,自慚形穢自我疏離。
      音碼的注音和漢拼,就是憑著「不用學習」而大行其道,佔了輸入法使用市場的九成以上(尤其電腦老師不重視,華文老師不會教)。但這「不用學習」事實是在小學一年或入學前就強制灌輸了的,這樣的「不用學習」,祗是投機取巧而已。英文難,則是反過來,是第一關學會字母讀音書寫,其後的每個單字word都不是依著字母作音符,一字母必然對應一個音(母音的aeiou不足以表英文的基本母音),等於是學字/打字是一套拼字母方式,讀音又要學一套音標(牛津音標或KK音標);從沒有如中文般,使用音標來打字/出字的。這字母,就等於是中文輸入法的字根(基本部件筆劃),數個字根用一個字碼代表對應到配鍵(字碼可視作相當於英文的大寫字母,其所代表的字根,即基本部件筆劃,可視作相當於英文的小寫字母)。注音的波潑摸佛....(ㄅㄆㄇㄈ...)和漢拼使用的挨屄吸字母都是拿音符作碼。
    人祗能發三百音,四調(華語)祗可得一千二百音,配上自有史以來的十萬多字,同音字多成了中文字的特色。音碼,不管是注音的ㄅㄆㄇㄈ...或羅馬拼音的挨屄吸字母都是。羅馬拼音至少六種以上,除稍早期國際最通行標音最準的威翟WG,以至因近來中国大陸崛起要求使用但標音最糟有上百符不合音缺失的漢語拼音。音碼,無一例外,無法分辨同音字,電腦檢索到字,還須多一道人工找字選字的麻煩。尤甚者,音碼培養人認音不認形,造成認形退化,網上自西元二千年後泛出一片的同音錯字,非常嚴重。近兩年,網上還流行起漢拼簡碼,連找字選字都不了,直接借用字的漢拼首字母當音符應付過去。例如:Q=錢,W=萬,T=特,S=死,....網上論壇還常見TMD(他媽的)假性文雅替代形式,SB(傻屄)更是當作隱晦罵人代號,...。中文若走到這樣的地步,已超越了顏文字的隨便,是走到退化邊緣去了。難怪中国大陸學者憂心喊「漢字危機文化跨塌」。
    中文不是音符組成的,不打筆劃打音符,認音忘形,捨本逐末,文化後遺癥多多。飯要嚼很慢粥用喝最快,嬰兒要另學吃飯實在麻煩,不如直接承接喝奶模式喝粥就可以了,人們都改喝粥,何必吃飯?形爲飯來音如粥,急功短視,文化營養變得膚淺,媒體電視出版碩博士老師教授都出現同音錯字,這是電腦未通行年代從不發生的事。因爲,電腦輸入中文用錯方法——違反中文特性的音符碼。音符屬於語言(音),不屬於文字(形)。
    五筆法發明人王永民有篇《警覺拼音輸入法對運用漢字能力的銷蝕》真是對中文字前途因使用音碼於打字而敲起的警鐘。這個「漢字危機、文化垮塌」的警鐘,在大陸文化界響起好些年了。https://cforum.cari.com.my/forum ... page=1#pid135525527
    深沉地總結,可看一下:《鍵盤時代怪現象》 https://cn.cari.com.my/forum.php?mod=viewthread&tid=3979808
二、形碼:以筆劃之形作字母以爲組字之基本部件(輸入法術語特稱字根),直接給中文字組合成字
  (一)將字看作整體而分解成基本部件,取碼依序爲首次三末。越複雜多筆的字越見其拙劣。
     一)基本筆劃數字編碼,取四角之碼。如:四角號碼、縱橫。
     二)基本筆劃數字編碼,再依字根首次筆或首末筆作二位數字編碼矩陣,配上鍵位;取四碼(前三末一)。如:五筆(字根以首次筆訂二位數字且可作鍵位定位--首筆訂相鄰五鍵作區次筆訂位)、和碼(五筆改良型,去「折」擴「橫」作1橫離接和2橫交。)、行列30(字根以首末筆訂二位數字且可鍵位定位--首筆作行末筆作列)、鄭碼(字根以首次筆訂制,但不能鍵位定位)
     三)先制訂基本部件再分類組,配應按鍵;取三碼(前二末一)、四碼(前三末一)。
      1.配鍵策略與英文字母作牽強附會助記。如:嘸蝦米、eChinese(大漢)。
      2.配鍵策略跟英文字母無關。如:大易。
     四)依賴英文字母形似、音似、或同近義之英文單字首字母制訂中文基本部件。如:嘸蝦米、大漢e中文、字慧、說文。
  (二)將字依結構分解出區塊,再取區塊最具視覺敏感性的首末部件。
      先制訂基本部件再分類組,配應按鍵。如:倉頡、倉頡衍生如輕鬆、大新倉頡。
三、語音輸入
    馬雲在杭州會議上,展示了語音輸入的厲害,也顯示了語音輸入的缺點。可說,此法已達一般水準但仍未完善。尤其致命的有:必須在安靜錄音的操作環境,混雜外語情況下會錯誤百出。
四、特性--以下是最重要(一二三)及市場誤導(四五)的特性
  (一)收字數--不受字集收字限制,可打有史以來全部漢字(不要殘障輸入法)。
  (二)免費開源--不受軟體商脅持,因而建置於系統軟體後,不受限於與作業系統的版本協調共融問題。促成內建於所有系統及裝置,具有全球可得性,而不受不同系統及裝置限制。
  (三)給中文排序--每字唯一碼纔能做到,至少在目前電腦使用的聯碼unicode所收七萬五千字範圍內,重碼率在個位數百分比。
  (四)強調輸入快--輸入效率必須奠基在對字形筆劃認記、刷新的基礎上,纔是真正效率的精神。目前的所謂快,是以簡碼、辭庫(衍生聯想辭、自動聯想辭、記憶辭)等作爲手段。但:一、靠辭輸入作手段是失焦,正常輸入需求每分鐘能達卅字是足夠的(任何一種輸入法,包括最不理想的音碼,都做得到),超出的速率其實是廣告,根本不需要。祗有靠打字爲生的如現場速記、記者、等等職業纔有此每分鐘百字需求(倉頡可達到)。二、辭輸入所需辭庫跟工作職別有關,祗需給用戶自訂辭的功能鍵便夠,軟體商越俎代庖所訂辭庫不符實際需求。且因應新辭出現,需定時更新版本,受軟體商控制。
        講究辭輸入--這是附加功能,不能作爲主要功能,否則助忘字形失寫症,反顛覆了形碼原有優點。
  (五)強調學習快(規則再簡易,字根熟悉沒有捷徑,祗有方法的巧妙。
                     --依附英文字母之形、音、及義(指定英文單字之首字母),作爲牽強附會的攀緣,認爲是助記,有的甚至訛稱免記字根,不是對筆劃字形整理的好方法。畢竟中文不是英文。(軍事、經濟依附是較顯性而短暫的,但文化依附卻是隱性而長久。如日韓越南依附中華文化,雖極力要脫漢去中,仍歸入漢字文化圈。)

詳參:《(007)字碼需用中文字的重要性及各家比較.pdf》
      https://drive.google.com/folderv ... cFM2TVk&usp=sharing


後文連結:《最完整的中文輸入法--倉頡》https://cn.cari.com.my/forum.php?mod=viewthread&tid=4296966

回复

使用道具 举报


ADVERTISEMENT

发表于 20-9-2021 12:15 PM | 显示全部楼层
看到这个帖让我想起我的一位中学老师, 他发明了一种特殊的查字法, 每次上课时给我们演示, 大概就是纯数字就能找到汉字而不需要用汉语拼音。
回复

使用道具 举报

 楼主| 发表于 20-9-2021 02:43 PM | 显示全部楼层
本帖最后由 lunglung 于 21-9-2021 06:21 PM 编辑

用數字對基本筆劃編號碼,祗能有十種基本筆劃部件,大陸審訂的基本部件就有五百六十個!(註)使用此法的,有王雲五的四角號碼及衍生的縱橫,三角Z形取碼的三角編號法(已沒人用),雖然看似簡易,但同碼字多,不適排序。尤其中文字有史以來有十萬多,無法全收。0000~9999的編碼空間,祗能有一萬個碼位給一萬個字編碼,一般輸入法依國標字集不過收二萬多字而已,算是殘障法,看看人家英文有打不出的字?(不管是否罕用,截至西元二○○八年全部英文單字word有一百萬個)。而且,輸入法不能祗考慮輸入一途,中文資訊處理有六大需求:字碼、字序、字形、字辨、字音、字義。一般輸入法眼光,祗在輸入,最多支持「字碼、字序、字形」。
另,輸入法至少要滿足:全漢字(收足全部十萬多)、全球所有系統及裝置都具備、免費開源、字根數少(最多約在一百左右,符合人的記憶能力)。還有,特殊規矩要少,例如字根對應按鍵要依預設計劃(如五筆爲平衡單一鍵碼負載字根數太多,而有不少字根特別挪移鍵位,有違初衷),又如說好以筆順取碼但又另訂自己筆順(如行列;鄭碼還有跨筆順字根)。依附英文字母的形音,甚至字根改用對應之英文字的首字母(如嘸蝦米的字根「車」利用Car來配予C鍵)都不是好方法。我們打的是中文,意念當然以全中文爲要,怎麼竟又塞入了英文?
註:五百六十個基本部件是不實用的,誰能記得五百六十個,並用它來爲中文字編碼作輸入?更何況鍵盤祗有廿六個文字鍵可用。勿說五百六十個,即使倉頡五代有114個字根(基本部件)是所有千多種輸入法中最少的,要擠入既訂廿六組之數,作爲配予廿六文字鍵也得費一番功夫。所幸倉頡有切區塊這一招,又以字形特徵來分組(配鍵),使用戶可以輕易掌握。依倉頡第三代手冊所述,在分析三萬五千字有三百多個字首,及二千七百六十餘個字身,可以七十六字根表達;依倉頡第五代手冊所述,分析六萬字,得594個字首,9897個字身,分析得612個常用結構字形,可以114個基本字形表達(註)。這種依字形結構切出左上外區塊的部件形式(區塊等同是英文字的音節),以其首尾碼表示,能急劇減少所需設置的基本部件(字根),是倉頡比其他千多種方法高明之處。
註:全部字母及輔助字形共114個字根,編者依個人實踐經驗,增至一五九個供讀者參考作詳細說明用。事實,依倉頡字形特徵精神,例如「心」字母的輔助字形(見後文《最完整的中文輸入法--倉頡》:https://cn.cari.com.my/forum.php?mod=viewthread&tid=4296966),「L乚」和「ノ一」所交叉結合產生的「匕ヒ<比左><化右>」等七個微變形字形,都算作同一個。
不祗漢拼,凡是用音符來打字,都不適合於中文。因中文字是以形表義,用筆劃書寫的。人祗能發三百個音,華語四調得一千二百音,勿說全部十萬多個字,光是要對應常用字三千個就不夠。所以,注音的ㄅㄆㄇㄈ...或漢拼abc都在表音,完全不能用,必要翻頁找字選字,搞死人(所以網上同音錯字氾濫,尤其在電子三伺產品陪著長大的年青人,中文能力遠比不上四五十歲以上的人)。若讀音不正或不知讀音,更無法用。漢拼用來作打字是最糟糕的。在漢拼未被中国向聯合國要求作國際標準前,國際上早有威翟WG通行多年,標音最準。除此,以羅馬拉丁字母作標音的,大致有六種系統以上,漢拼則是各種系統中最糟的。漢拼內部有上百個音和符不相合的缺失,因爲它本來不是用來標華語音用的,而是文字改革,作爲拉丁化中文的草稿(同時推出簡化字,引導民眾由傳統文字的形思惟轉向拼音文的音思惟)。當同音字識別能解決的話,就會明令廢方塊漢字,改用能識別同音字的漢拼作正式的中文字。所以,爲求書寫快速,塞了許多怪規則在裡頭。不過,最終文字改革失敗,在西元一九八六暫停(沒宣佈永久不再啟動,也不收回有缺失的簡化字和音不合符的漢拼)。

經卅多年來尋尋覓覓,還是始祖倉頡最理想,能充份保持字形記憶,和形義對應能力。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

所属分类: 人文空间


ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 24-11-2024 10:02 PM , Processed in 0.121963 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表