cht電腦資訊輸入法
adm Find login register

漢字部件輸入法表格檔的從發想到擱置,過程筆記

IanHo
1 漢字部件輸入法表格檔的從發想到擱置,過程筆記
Promote 0 Bookmark 02020-10-25quote  

公家機關有這樣一個解決方案網站

中華民國行政院國家發展委員會全字庫
https://www.cns11643.gov.tw/search.jsp?ID=13
部件
https://www.cns11643.gov.tw/search.jsp?ID=14&ID2=18
另外公家機關也有將其背後資料庫內,部分的漢字屬性資料和字形檔開放給民眾免費下載打包檔。
CNS11643中文標準交換碼全字庫(簡稱全字庫)
https://data.gov.tw/dataset/5961

我嘗試摸索閱讀全字庫網站和打包檔的既有內容,產生了一個發想:
有沒有可能模仿所謂的漢字字根輸入法的概念,依據全字庫所提供的五一七個漢字部件的資料集(打包檔內所提供的既有內容),
去二創設計一個「全字庫五一七個漢字部件輸入法表格檔」 for gcin ,這樣的可能性?

有一位辦公室的前輩,號稱其摸過「中文大鍵盤」。
(我個人是從來沒有摸過中文大鍵盤,我摸過的第一把電腦鍵盤已經是大五PIN的PC101Key了。)
某日聊天時這位辦公室的前輩聽聞我的發想,提供了他的觀點:
依據目前臺灣社會民風的現實(西元201X世代後半之後),「完全不建議」肖想自行再二創設計實體的中文大鍵盤。
(拍科幻電影除外)
而是可以去嘗試另外設計一套機制,想辦法將我所謂的「全字庫五一七個漢字部件」全部塞入臺灣社會目前主流的PC104Key全尺寸鍵盤左下區塊的qwerty區域內的幾十個按鍵內。

我算了一下,有47個按鍵可以動用,於是我開始想像,有沒有辦法透過「切換鍵」之類的,
把五一七個漢字部件排入這47個按鍵位置內?
我在腦內想像了好久,都想像不出一個合理的配置機制來將就PC104Key。
於是「全字庫五一七個漢字部件輸入法表格檔」這個發想,就這樣擱置了。

e201302012123@gmail.com
2
Promote 0 Bookmark 02021-07-08quote  

好想法,不過倉頡輸入法基本上已經完美解決了中文的檢索和輸入問題,不需要再另起爐灶了。

IanHo
3
Promote 0 Bookmark 02021-07-09quote  

e201302012123@g

好想法,不過倉頡輸入法基本上已經完美解決了中文的檢索和輸入問題,不需要再另起爐灶了。

全字庫五一七個部件可以支援到將近九萬五千個漢字,
我個人古早印象中,倉頡輸入法即便是實驗室版本都還沒有支援到將近九萬五千個漢字。

e201302012123@gmail.com
4
Promote 0 Bookmark 02021-07-25quote  

IanHo

 

全字庫五一七個部件可以支援到將近九萬五千個漢字,
我個人古早印象中,倉頡輸入法即便是實驗室版本都還沒有支援到將近九萬五千個漢字。

倉頡可以支持到G區,你想支援到多少漢字都可以。

全字庫似乎跟unicode走了不同的兩條路。

倉頡或者一個好的中文輸入法,其實沒有必要支持到這麼多字。因為中文字是為了表意,也就是表達人的思想。超過B區的字我想幾乎都意義不大。根據說文,中文字有六書構字原理,因為六書,因此漢字都有它的意義。

我們在論壇討論或發表文章時,如果遇到一個想表達的字形,與其打出一個G區的字,不如用圖片代替。因為你家的電腦支援顯示G區,不代表別人的設備能顯示。

我自建的論壇就提供了svg直顯功能。

做輸入法的過份的把注意力放在了這些生僻字、無義字上面。以「服務大衆」為借口,實則浪費時間。

即便我的輸入法能打出一個B區以上的字,我也不願意這樣做。因為unicode或全字庫,都只是「推廌內碼」而已。像這種窮舉式鋪張的內碼,它的擴張是沒有頭的。在碼表和字型制作上都是一種人類資源的浪費。

 

一些人以拿到一個支援到G區的碼表為追求,而他本人的精神境界,思維深度,表達能力,並未得到提高。

我現在用的是雅虎奇摩倉頡,這個倉頡碼表只支援到B區,我覺得已經夠用了。

IanHo
5
Promote 0 Bookmark 02021-08-09quote  

e201302012123@g

 

倉頡可以支持到G區,你想支援到多少漢字都可以。

全字庫似乎跟unicode走了不同的兩條路。

倉頡或者一個好的中文輸入法,其實沒有必要支持到這麼多字。因為中文字是為了表意,也就是表達人的思想。超過B區的字我想幾乎都意義不大。根據說文,中文字有六書構字原理,因為六書,因此漢字都有它的意義。

我們在論壇討論或發表文章時,如果遇到一個想表達的字形,與其打出一個G區的字,不如用圖片代替。因為你家的電腦支援顯示G區,不代表別人的設備能顯示。

我自建的論壇就提供了svg直顯功能。

做輸入法的過份的把注意力放在了這些生僻字、無義字上面。以「服務大衆」為借口,實則浪費時間。

即便我的輸入法能打出一個B區以上的字,我也不願意這樣做。因為unicode或全字庫,都只是「推廌內碼」而已。像這種窮舉式鋪張的內碼,它的擴張是沒有頭的。在碼表和字型制作上都是一種人類資源的浪費。

 

一些人以拿到一個支援到G區的碼表為追求,而他本人的精神境界,思維深度,表達能力,並未得到提高。

我現在用的是雅虎奇摩倉頡,這個倉頡碼表只支援到B區,我覺得已經夠用了。

我會覺得,你用不到那麼多字,不代表別人用不到那麼多字。

別人可能在你我想像不到的某個細節,就是會用到那麼多字。

 

倉頡想支援到多少漢字都可以,是一回事。

一般終端使用者 有沒有/是否方便取得 馬上可以使用到那麼多字的、現成的倉頡輸入法軟體,又是另一回事了。

e201302012123@gmail.com
6
Promote 0 Bookmark 02021-08-10quote  

倉頡使用者能不能取得支援到G區的倉頡碼表那是他們自己的事,如果他們有這個需求,那就自己想辦法。

我只願意談倉頡能不能為到unicode-G區的漢字,或者全字庫的所有字編碼的問題。

這在數學或邏輯上,相當於證明某個理論,但不一定有人會真的去做。

比如有人證明了用1,2,3...無窮大的邊長的正方形序列,能無縫平鋪無窮大的平面。這個目前可能沒有人去做,因為沒有意義。它只要能被證明是對的就可以了。

 

回到倉頡,你說的部件作形碼的字根,去做一個形碼,這是很多形碼輸入法的思路。比如鄭碼,徐碼等。

而倉頡是統計了康熙字典四萬漢字,分出六百多字首及九千多字身。這樣去科學統計出的一個形碼,才最終做成了倉頡。

因此我只想告訴你,你想做的事情,倉頡已經做好了。

當然,全字庫本身也是在用倉頡来編碼。但由於它錯誤的使用五代,因此我後面也就不關注它的情況了。

 

補充一點,我所用的雅虎奇摩倉頡,正是全字庫製作的。當年它是用三代倉頡来做的。三代倉頡是最好的倉頡版本。

IanHo
7
Promote 0 Bookmark 02021-08-10quote  

e201302012123@g

倉頡使用者能不能取得支援到G區的倉頡碼表那是他們自己的事,如果他們有這個需求,那就自己想辦法。

我只願意談倉頡能不能為到unicode-G區的漢字,或者全字庫的所有字編碼的問題。

這在數學或邏輯上,相當於證明某個理論,但不一定有人會真的去做。

比如有人證明了用1,2,3...無窮大的邊長的正方形序列,能無縫平鋪無窮大的平面。這個目前可能沒有人去做,因為沒有意義。它只要能被證明是對的就可以了。

 

回到倉頡,你說的部件作形碼的字根,去做一個形碼,這是很多形碼輸入法的思路。比如鄭碼,徐碼等。

而倉頡是統計了康熙字典四萬漢字,分出六百多字首及九千多字身。這樣去科學統計出的一個形碼,才最終做成了倉頡。

因此我只想告訴你,你想做的事情,倉頡已經做好了。

當然,全字庫本身也是在用倉頡来編碼。但由於它錯誤的使用五代,因此我後面也就不關注它的情況了。

 

補充一點,我所用的雅虎奇摩倉頡,正是全字庫製作的。當年它是用三代倉頡来做的。三代倉頡是最好的倉頡版本。

 

我的古早印象沒錯的話,全字庫版的倉頡是倉三+倉五混搭出來的。

 

補充一下,

要使用者端自己想辦法,而不是盡可能地在許多面向提供辦法,

這真的也難怪曾經很風光的倉頡輸入法,發展了幾十年下來,越來越只是愛好者同溫層般的存在。

edited: 3
gholk
8
Promote 0 Bookmark 02021-08-17quote  

可以用二個鍵代表一個部件,這樣 26*26 = 676 還有剩,但要想想怎麼記憶。

IanHo
9
Promote 0 Bookmark 02021-09-07quote  

gholk

可以用二個鍵代表一個部件,這樣 26*26 = 676 還有剩,但要想想怎麼記憶。

「二個鍵代表一個部件,這樣 26*26 = 676 還有剩」

我在腦海中想像了好久,都具象化不出所以然來。

e201302012123@gmail.com
10
Promote 0 Bookmark 02021-12-26quote  

IanHo

我的古早印象沒錯的話,全字庫版的倉頡是倉三+倉五混搭出來的。

我希望你不要甚麼都憑印象,必要時可以請教他人或者直接上去查找答案。

全字庫古早版本是倉三,後来改用倉五。沒有三五混搭的情況。

IanHo

 

補充一下,

要使用者端自己想辦法,而不是盡可能地在許多面向提供辦法,

這真的也難怪曾經很風光的倉頡輸入法,發展了幾十年下來,越來越只是愛好者同溫層般的存在。

倉頡或者其它輸入法只是工具,人們只要能實現他們的目地,不一定要用哪個工具,他們有選擇使用哪個工具的自由。倉頡或許曾經風光過,現在「不風光」了也有它自身的原因。總之對於我而言,我暫時找不到比倉頡更好用的形碼輸入法。我在用倉頡之前,我也會打雙拼、五筆、鄭碼,其中鄭碼打起繁體字来也是可以的。我是倉頡愛好者,但是我也有選擇工具的自由,我也是經過了各種比較,最終選擇了倉頡。

我或很多人選擇倉頡,正是因為倉頡支援了最多的字符輸入。而不是你說的,「因為倉頡沒有提供更多支援辦法,所以倉頡現在少人用」。你的邏輯其實有點混亂。請你理清思維,我之前說的是,倉頡正是因為支援了太多的漢字,會使碼表過份的臃腫,即便是一個熟讀四書五經的人,也絕用不到b區以上的字。因此我不認為倉頡或任何輸入法有必要支援到b區以上。

而當你如果真的在寫文章時需要一個b區以上的字,你完全可以插入svg来表達這個字型,而不是直接輸入這個字,否則它在很多人的設備上就是亂碼。還不說兩岸所用的字型不同。真要用到這個字,你不精確表達的話,還可能會産生誤解。

IanHo
11
Promote 0 Bookmark 02021-12-26quote  

不只我憑印象,別人也這麼認為全字庫有倉三、五混搭之狀況,

請參考以下網址的民眾留言討論串!

https://data.gov.tw/dataset/5961

 

e201302012123@g

 

我希望你不要甚麼都憑印象,必要時可以請教他人或者直接上去查找答案。

全字庫古早版本是倉三,後来改用倉五。沒有三五混搭的情況。

 

倉頡或者其它輸入法只是工具,人們只要能實現他們的目地,不一定要用哪個工具,他們有選擇使用哪個工具的自由。倉頡或許曾經風光過,現在「不風光」了也有它自身的原因。總之對於我而言,我暫時找不到比倉頡更好用的形碼輸入法。我在用倉頡之前,我也會打雙拼、五筆、鄭碼,其中鄭碼打起繁體字来也是可以的。我是倉頡愛好者,但是我也有選擇工具的自由,我也是經過了各種比較,最終選擇了倉頡。

我或很多人選擇倉頡,正是因為倉頡支援了最多的字符輸入。而不是你說的,「因為倉頡沒有提供更多支援辦法,所以倉頡現在少人用」。你的邏輯其實有點混亂。請你理清思維,我之前說的是,倉頡正是因為支援了太多的漢字,會使碼表過份的臃腫,即便是一個熟讀四書五經的人,也絕用不到b區以上的字。因此我不認為倉頡或任何輸入法有必要支援到b區以上。

而當你如果真的在寫文章時需要一個b區以上的字,你完全可以插入svg来表達這個字型,而不是直接輸入這個字,否則它在很多人的設備上就是亂碼。還不說兩岸所用的字型不同。真要用到這個字,你不精確表達的話,還可能會産生誤解。

e201302012123@gmail.com
12
Promote 0 Bookmark 02021-12-28quote  

IanHo

不只我憑印象,別人也這麼認為全字庫有倉三、五混搭之狀況,

請參考以下網址的民眾留言討論串!

https://data.gov.tw/dataset/5961

如你所說,我找到了那個評論三五混搭的帖子:

「面」一字,倉頡三代為「一田卜中」,倉頡五代為「一田尸中」,此字全字庫採五代倉頡編碼。 「犀」一字,倉頡三代為「尸卜卜手」,倉頡五代為「 尸水竹手 」,此字全字庫採五代倉頡編碼。 「鬼」一字,倉頡三代為「竹戈」,倉頡五代為「竹山戈」,此字全字庫採三代倉頡編碼。 「歷」一字,倉頡三代為「一木卜中一」,倉頡五代為「一竹木一」,此字全字庫採三代倉頡編碼。 「函」一字,倉頡三代為「弓山水」,倉頡五代為「山弓水」,此字全字庫採三代倉頡編碼。 請問全字庫收錄之倉頡編碼使用的是第三代倉頡還是第五代倉頡,還是另有標準? 感謝您的答覆。

因為我只用過舊版本的三代時期的全字庫的倉頡碼表,沒有用過也沒有興趣了解改成五代的全字庫,因此我確實不知道它有三五混搭的情況。

因為全字庫的工作人員水平有限,後来我在修訂雅倉時,發現了大量錯誤,同時,要去除它的各種重碼也是大耗時間。因此我已經在用自訂的倉頡碼表,所以往後我也不關心全字庫了。

e201302012123@gmail.com
13
Promote 0 Bookmark 02021-12-28quote  

不過我倒是可以對全字庫的「鬼曆函」的編碼不採用五代作個點評。

其實倉頡五代並不是一個好用的倉頡版本,它的「複合字首」的規則是很有問題,很難應用的。比如「鷢」字在五代要判為上厥下鳥,而「厥」又不是五代複合字首。「懬」判為上廣下心,而「廣」不是五代複合字首。因此全字庫雖然採用五代字元(如「面」),但對於結構判定,他們認為三代比五代好,所以就採用三代規則。

「鬼」字是三代複合字,五代取消了這個複合字。其實五代的做法是很成問題的。因為五代對「鬼」字的結構判定是㇟包圍厶,而對「魅」字又是鬼包圍未,為甚麼不是㇟包圍厶未呢?因此我認為五代取消了鬼複合字之後,使結構判定産生歧義。

「函」字是㇇的下聯功能是在凵包圍水之後才起作用,而五代及一些追隨者認為要「統一」使凵全包圍,這種看法非常可笑!凵只包圍到它該包圍的地方。後来在「畵齒」等字,五代的某些用戶也嘗到了反例的痛。

雖然全字庫確實是三五混搭,不過我看它挑的地方倒挺準的。其實倉頡規則是開放的,並且五代也確實做的不好。因此作為某個碼表的製作者,他確實可以有修改的權利。現在也出現了不少三五混搭的倉頡碼表。

不過我自訂的尹倉,用的是三代。因為在我看来,五代完全是狗尾續貂。

edited: 1
IanHo
14
Promote 0 Bookmark 02021-12-28quote  

所以我也希望你不要什麼都憑你自己先入為主的觀念。

必要的時候你可以先google看看是不是真的有其他人留言舉證了全字庫的版本有倉三、五混搭之狀況!

實務上就是有人舉證了全字庫版本有倉三、五混搭之狀況,並對公家機關留言提出疑問。

我就是有印象!

還是老梗,你的發言內容會讓我覺得,真的難怪曾經風光一時的倉頡輸入法,近十年越來越像是愛好者同溫層般的存在。

 

e201302012123@g

我希望你不要甚麼都憑印象,必要時可以請教他人或者直接上去查找答案。

全字庫古早版本是倉三,後来改用倉五。沒有三五混搭的情況。

 

倉頡或者其它輸入法只是工具,人們只要能實現他們的目地,不一定要用哪個工具,他們有選擇使用哪個工具的自由。倉頡或許曾經風光過,現在「不風光」了也有它自身的原因。總之對於我而言,我暫時找不到比倉頡更好用的形碼輸入法。我在用倉頡之前,我也會打雙拼、五筆、鄭碼,其中鄭碼打起繁體字来也是可以的。我是倉頡愛好者,但是我也有選擇工具的自由,我也是經過了各種比較,最終選擇了倉頡。

我或很多人選擇倉頡,正是因為倉頡支援了最多的字符輸入。而不是你說的,「因為倉頡沒有提供更多支援辦法,所以倉頡現在少人用」。你的邏輯其實有點混亂。請你理清思維,我之前說的是,倉頡正是因為支援了太多的漢字,會使碼表過份的臃腫,即便是一個熟讀四書五經的人,也絕用不到b區以上的字。因此我不認為倉頡或任何輸入法有必要支援到b區以上。

而當你如果真的在寫文章時需要一個b區以上的字,你完全可以插入svg来表達這個字型,而不是直接輸入這個字,否則它在很多人的設備上就是亂碼。還不說兩岸所用的字型不同。真要用到這個字,你不精確表達的話,還可能會産生誤解。

e201302012123@g

如你所說,我找到了那個評論三五混搭的帖子:

因為我只用過舊版本的三代時期的全字庫的倉頡碼表,沒有用過也沒有興趣了解改成五代的全字庫,因此我確實不知道它有三五混搭的情況。

因為全字庫的工作人員水平有限,後来我在修訂雅倉時,發現了大量錯誤,同時,要去除它的各種重碼也是大耗時間。因此我已經在用自訂的倉頡碼表,所以往後我也不關心全字庫了。

e201302012123@g

不過我倒是可以對全字庫的「鬼曆函」的編碼不採用五代作個點評。

其實倉頡五代並不是一個好用的倉頡版本,它的「複合字首」的規則是很有問題,很難應用的。比如「鷢」字在五代要判為上厥下鳥,而「厥」又不是五代複合字首。「懬」判為上廣下心,而「廣」不是五代複合字首。因此全字庫雖然採用五代字元(如「面」),但對於結構判定,他們認為三代比五代好,所以就採用三代規則。

「鬼」字是三代複合字,五代取消了這個複合字。其實五代的做法是很成問題的。因為五代對「鬼」字的結構判定是㇟包圍厶,而對「魅」字又是鬼包圍未,為甚麼不是㇟包圍厶未呢?因此我認為五代取消了鬼複合字之後,使結構判定産生歧義。

「函」字是㇇的下聯功能是在凵包圍水之後才起作用,而五代及一些追隨者認為要「統一」使凵全包圍,這種看法非常可笑!凵只包圍到它該包圍的地方。後来在「畵齒」等字,五代的某些用戶也嘗到了反例的痛。

雖然全字庫確實是三五混搭,不過我看它挑的地方倒挺準的。其實倉頡規則是開放的,並且五代也確實做的不好。因此作為某個碼表的製作者,他確實可以有修改的權利。現在也出現了不少三五混搭的倉頡碼表。

不過我自訂的尹倉,用的是三代。因為在我看来,五代完全是狗尾續貂。

e201302012123@gmail.com
15
Promote 0 Bookmark 02021-12-29quote  

IanHo

所以我也希望你不要什麼都憑你自己先入為主的觀念。

必要的時候你可以先google看看是不是真的有其他人留言舉證了全字庫的版本有倉三、五混搭之狀況!

實務上就是有人舉證了全字庫版本有倉三、五混搭之狀況,並對公家機關留言提出疑問。

我就是有印象!

還是老梗,你的發言內容會讓我覺得,真的難怪曾經風光一時的倉頡輸入法,近十年越來越像是愛好者同溫層般的存在。

你說的對,我應該自己去google来確認你的印象是否有誤。

不過,我並不關心全字庫是否三五混搭。所以,把問題搞明白就可以了,我之前就是擔心憑印象不準確。

我沒有聽懂「愛好者同溫層」。倉頡的優點,如果你沒有去用的話,可能感受不到,也不會知道「倉頡愛好者」為甚麼會成為「倉頡愛好者」。


我後来再看了一下主題,你原先是想借用全字庫的漢字部件去研發一個形碼輸入法。其實倉頡也是這個思路,倉頡當初在研製時,統計出了五百多個字首和九千多個字身:

朱邦復

根據說文解字,中文源自象形、指事、轉注、假借、會意、形聲六書。後人百分九十文字,皆依據形聲所造,是以,本輸入法即以「形聲」為取碼及組字之基本法則。將所選取的文字一一整理,共計分析出594 個字首,9897個字身。

如果你找到了《倉頡五代輸入法手冊》,裏面的附錄裏也有「常用字首表」和「常用字身表」。

同時,《手冊》以及朱邦復的自傳《智慧之旅》也都詳細介紹了倉頡的製作過程。

希望我講的這些能使你更加了解倉頡輸入法,也希望能給你的研發帶来助益😂。

e201302012123@gmail.com
16
Promote 0 Bookmark 02021-12-29quote  

IanHo

全字庫五一七個部件可以支援到將近九萬五千個漢字,

我個人古早印象中,倉頡輸入法即便是實驗室版本都還沒有支援到將近九萬五千個漢字。

你可能忘記了你前面「憑印象」講出的話。現在全字庫就是用倉頡支援到這麼多的字。

當然我也不是要跟你抬槓,我單純只想把問題和道理搞明白。😃

e201302012123@gmail.com
17
Promote 0 Bookmark 02021-12-29quote  

其實不管是全字庫還是unicode,支援到這麼多的漢字實在是沒有必要。

特別是全字庫,拿著臺灣行政院的資金,自己去搞一個獨立於unicode的內碼。實際上意義不大,就是一群號稱專家的人在混口飯吃。我們日常交流,乃至寫最頂級的學術論文,都用不到這些字。

假設是文字學博士寫論文,他需要一個特殊字形時,他絕不會上全字庫拿字型(因為字型很怪的時候就很難查),他會用fontforge来造一個字(文字學博士難道不會嗎)。

出版社出版古籍,遇到古字,應該都是自造,而不是上全字庫,因為出版社有字型要求,印刷字型要統一。

網友聊天,遇到個甚麼字型,即刻手寫或截圖最方便,沒有可能給對方發一個B區往後的字符。


unicode跟全字庫,對漢字的過份支援,這種理念已經過時了。他們的項目發展初始,截圖發圖並不方便,人們當然希望直接用內碼顯示,以節省空間。但到了unicode cjk ext-b往後的時代,電子設備,磁碟容量,都已經跟那個時代完全不可同日而語了。

我現在用的碼表只支援到a區,但我都沒感到有甚麼不方便。反倒是碼表小的更精簡。

但是有些人做倉頡碼表,只支援big5的漢字六千多個,我覺的這又太精簡了。我覺的cjk基本區20902個字,以及36個筆畫,還是至少要支援的。最好再帶上中文標點及ext-a區。

IanHo
18
Promote 0 Bookmark 02021-12-29quote  

憑印象又如何?我的印象就是對的!全字庫目前的版本的確就是倉三五混搭!

你可以先嗆我?我不能質疑你?

不是只用倉頡支援到這麼多字,不要把注音和部件當作沒看到,

而且我還認為你是 倒因為果/倒果為因 了,應該是先有那麼多字,再把那些字去分析出字的屬性,

例如整理出那些字的 注音、倉頡、部件、部首、筆畫等等的屬性資料!

還是老話,你用不到這麼多字,不代表別人用不到這麼多字,之所以全字庫支援這麼多字,就是因為還有其他人們要用到這麼多字!

你自己覺得方便的方法,別人不見得覺得方便。你自己覺得麻煩的做法,或許別人覺得理所當然應該這樣操作。

我是不曉得你有沒有注意過近十幾年來的一個演變細節?早些年中華民國教育部公眾授權網下載的國語字典資料打包檔,

裡頭罕用字的 png/gif 字圖幾十個,一年一年過去了,罕用字的png/gif字圖數量減少了?為什麼,因為新版的字型支援的漢字更多了!

有部分 png/gif 字圖不必要了!

三年前我跟中華民國教育部和全字庫跑過實體公文流程往返申請造字,請他們把五一七個漢字部件的獨立碼位向量字圖全部造齊,

原本只有將近三分之二的漢字部件獨立碼位向量字圖而已,耗了將近一年,全字庫終於補齊五一七個漢字部件的獨立碼位向量字圖了!

 

再補充論述,臺灣社會,早些年還有 中華民國中央研究院漢字構形資料庫單機版、以及教育部異體字字典等等的解決方案,

現代社會的所謂的文字學博士,理應要學會使用google下關鍵字找找看有沒有現成的資料可以引用,

如果有現成的資料可以引用的話,就真的不需要重造輪子、多此一舉。還自己畫向量圖? 哪那麼麻煩!

 

e201302012123@g

你可能忘記了你前面「憑印象」講出的話。現在全字庫就是用倉頡支援到這麼多的字。

當然我也不是要跟你抬槓,我單純只想把問題和道理搞明白。😃

 

e201302012123@g

其實不管是全字庫還是unicode,支援到這麼多的漢字實在是沒有必要。

特別是全字庫,拿著臺灣行政院的資金,自己去搞一個獨立於unicode的內碼。實際上意義不大,就是一群號稱專家的人在混口飯吃。我們日常交流,乃至寫最頂級的學術論文,都用不到這些字。

假設是文字學博士寫論文,他需要一個特殊字形時,他絕不會上全字庫拿字型(因為字型很怪的時候就很難查),他會用fontforge来造一個字(文字學博士難道不會嗎)。

出版社出版古籍,遇到古字,應該都是自造,而不是上全字庫,因為出版社有字型要求,印刷字型要統一。

網友聊天,遇到個甚麼字型,即刻手寫或截圖最方便,沒有可能給對方發一個B區往後的字符。


unicode跟全字庫,對漢字的過份支援,這種理念已經過時了。他們的項目發展初始,截圖發圖並不方便,人們當然希望直接用內碼顯示,以節省空間。但到了unicode cjk ext-b往後的時代,電子設備,磁碟容量,都已經跟那個時代完全不可同日而語了。

我現在用的碼表只支援到a區,但我都沒感到有甚麼不方便。反倒是碼表小的更精簡。

但是有些人做倉頡碼表,只支援big5的漢字六千多個,我覺的這又太精簡了。我覺的cjk基本區20902個字,以及36個筆畫,還是至少要支援的。最好再帶上中文標點及ext-a區。

 

edited: 2
IanHo
19
Promote 0 Bookmark 02021-12-29quote  

我後知後覺的發現,原來你來自杭州,難怪我會覺得一來一往的貼文內容,好像有那麼點在雞同鴨講的意味,你的文字內容也有夾雜簡化字。
讓我回想起過往的網路討論串互動經歷,我在2004年申請了一個YamQQ帳號來跟大陸表親聯繫,當年臺灣蕃薯藤跟中國大陸的QQ有跨海合作。
幾年後臺灣蕃薯藤結束YamQQ營運了,但我發現我的QQ帳號還是可以繼續登入使用,2014年的某天,我發現了 QQ群 這樣的功能,
然後還發現了「正體字」群組,這引起我的興趣,於是就加入參與討論,基於「遠來是客」,我加入的第一時間就表示友善,毫無保留,大放送的分享資料,
我提供了當時在臺灣的網路環境還剛完整公開沒多久的全字庫資源相關網址、字形檔下載連結等等資源,當然我是透過足夠多的組合關鍵字來分享的,
第一時間,我被該群組內的網民捧上天,把我稱讚的跟什麼似的。我不疑有他,接下來我繼續補充論述,
我很理所當然地表示這些資源都是中華民國臺灣老百姓的納稅錢所建構出來的(客觀事實),接下來那些網民們突然就翻臉像翻書一樣,
開始對我極盡人身攻擊之能事,罵我豬頭,嗆說這些正體字資源是國民黨從大陸搬到臺灣的黃金換來的云云,
過了大約十幾個小時之後,我發現我的QQ帳號被鎖了,又過了三天,我發現 北京大學中文系論壇/pkucn 中文信息處理 子討論版,
出現一則貼文,內容是把我在該QQ正體字群組的貼文內容再加以剪貼之後(主要是刪掉 源自中華民國臺灣老百姓的納稅錢所建構出來 這串論述),
搭配上從臺灣網站下載,再上傳到中國大陸境內網路硬碟空間的正體字資源網址,成了一篇分享貼文。
該則貼文乍看之下還真像是那些正體字資源是中國大陸境內自己從零到有生出來的東西。
我看到這則貼文的第一時間就是想要平反,於是我註冊了pkucn的帳號,接下來我準備要貼文了,結果該論壇跳出訊息,
你所在的IP位址不能張貼文章(我在臺灣上網)。原來pkucn禁掉了來自臺灣的貼文,只能瀏覽而已。

以上寫了一大串,主要是我會覺得全字庫真的輪不到你來管。
你還嗆說全字庫實際上意義不大,就是一群號稱專家的人在混口飯吃。真的嗆很大。
我在編輯注音表格檔,我還真得覺得還好有全字庫的碼位排序存在,因為unicode的碼位排序(尤其「區段」的排序),「不符合」我的需求,
全字庫的碼位和「區段」排序才符合我的需求。

e201302012123@g

其實不管是全字庫還是unicode,支援到這麼多的漢字實在是沒有必要。

特別是全字庫,拿著臺灣行政院的資金,自己去搞一個獨立於unicode的內碼。實際上意義不大,就是一群號稱專家的人在混口飯吃。我們日常交流,乃至寫最頂級的學術論文,都用不到這些字。

 

edited: 3
e201302012123@gmail.com
20
Promote 0 Bookmark 02021-12-30quote  

IanHo

我後知後覺的發現,原來你來自杭州,難怪我會覺得一來一往的貼文內容,好像有那麼點在雞同鴨講的意味,你的文字內容也有夾雜簡化字。

我是大陸人,但並不意味著我們不能溝通及相互理解。我認為你講的話我都能聽懂並理解,我也沒有見到你說我的哪句話你聽不懂。

請注意,我個人是不使用簡化字的,包括日常的手寫。我在27歲往後學習毛筆字,以唐帖虞世南等名家真跡進行臨摹。同時我讀了四書五經等不少古書,直讀清代及宋版的印影古籍。據我對楷書的了解,「来乗絶衆」這些都是正楷漢字。

如果我想刻意裝成臺灣人,我完全可以用「來乘絕眾」等臺灣標準正體字。我對臺灣正體的了解,恐怕一般的臺灣民衆難以企及。更何況我用的是倉頡輸入法,對於想要打甚麼字完全是遊刃有餘。

IanHo

讓我回想起過往的網路討論串互動經歷,我在2004年申請了一個YamQQ帳號來跟大陸表親聯繫…原來pkucn禁掉了來自臺灣的貼文,只能瀏覽而已。

我很同情你的遭遇,不過你不用跟我講這麼多。我於2019年八月上街跟人講真相勸三退,被當局抓去關了十五日。我是大陸人,但我是具有國際觀的大陸人。

張惠妹比你更慘,她就在慶典上唱了首中華民國國歌。她是中華民國公民,她難道不能唱國歌?就這也被大陸某些人抓住利用。

我生長於大陸,但我想我應該也是「受害者」。這裏的人的思維不是善意講理,而是挖苦諷刺。

IanHo

以上寫了一大串,主要是我會覺得全字庫真的輪不到你來管。
你還嗆說全字庫實際上意義不大,就是一群號稱專家的人在混口飯吃。真的嗆很大。
我在編輯注音表格檔,我還真得覺得還好有全字庫的碼位排序存在,因為unicode的碼位排序(尤其「區段」的排序),「不符合」我的需求,
全字庫的碼位和「區段」排序才符合我的需求。

全字庫或許有它的用處,但是使用和維護成本很高。一件事情有利必有弊。你認為我跟你雞同鴨講,可能是因為我只看到它的缺點,你只看它的好處。

如上所述,全字庫是否佔用過多臺灣朋友的稅款,這個不是我感興趣的話題。我講的是像unicode跟全字庫這樣的無限擴容字庫的做法,其實是錯誤的。我可以即刻列出五條以上它的弊端。並且現在的電腦早就有了造字的方法,當你所需要的字形不在裏面,你也只能新造;而要確認「我需要的字形在不在全字庫」本身,就是一個很困難的事情。同時,全字庫只有它自己製作的楷體宋體兩個字體。你根本找不到其它的字體支援。而衆所周知,全字庫做的字體…

教育部重編國語辭典和異體字字典已經接受了我的幾個建議(好像現在不是教育部了?),根據我的建議更正了一些內容。他們知道我是大陸人,因為我是用126郵箱發送的,我也沒見他們說「臺灣的字典不需要大陸人多管閒事」。究其原因,我認為中華文化是無國界的,文化承載的是道理,而道理是相通的。(有時你會覺的動物都講道理)

e201302012123@gmail.com
21
Promote 0 Bookmark 02021-12-30quote  

IanHo

再補充論述,臺灣社會,早些年還有 中華民國中央研究院漢字構形資料庫單機版、以及教育部異體字字典等等的解決方案,

現代社會的所謂的文字學博士,理應要學會使用google下關鍵字找找看有沒有現成的資料可以引用,

如果有現成的資料可以引用的話,就真的不需要重造輪子、多此一舉。還自己畫向量圖? 哪那麼麻煩!

這個事情你可能沒有做過,等你去做你就知道了。google等檢索工具靠的是文字索引,而你連這個字都還沒拿到,你拿甚麼去搜尋。更何況全字庫的內碼跟unicode是不相通的,google用的是unicode。你試著拿ext-b以上的字形去google搜尋,幾乎不可能出来一個有用的結果。

不用說檢索不到,就算是千辛萬苦找到了,你所花費的時間精力遠超你直接造一個字。可能你對fontforge等造字軟體了解不夠,不是自己畫向量,而是用現成的部件去構造新字。你認為現在市面上的字型檔,包括全字庫的字型檔,每一個都是從白板開始新畫的嗎?

對於文字要求較高的行業,他不會畫矢量圖,那他還懂甚麼?

全字庫提供的字典只有楷體和宋體,它們其實都屬於楷書。而文字學有時要寫到楚帛秦簡等各種字型。這時你要去找「全字庫的內碼定義」簡直就是緣木求魚。

e201302012123@gmail.com
22
Promote 0 Bookmark 02021-12-30quote  

IanHo

不是只用倉頡支援到這麼多字,不要把注音和部件當作沒看到,

而且我還認為你是 倒因為果/倒果為因 了,應該是先有那麼多字,再把那些字去分析出字的屬性,

例如整理出那些字的 注音、倉頡、部件、部首、筆畫等等的屬性資料!

倉頡不等同於注音和部件、部首、筆畫。因為倉頡是一個實用的中文輸入法,可以用来打字寫文章。比如我使用多年的雅虎奇摩倉頡,就是全字庫做的。

當然注音或許也可以打字聊天,但是注音跟拼音一樣,重碼過多。更何況對於全字庫,這麼多奇形怪狀的字,你根本不可能知道它們的讀音。

臺灣國語,也就是大陸普通話,採音自北京郊區。當你為那些奇怪的字形賦音時,你根本沒有依據。

IanHo

還是老話,你用不到這麼多字,不代表別人用不到這麼多字,之所以全字庫支援這麼多字,就是因為還有其他人們要用到這麼多字!

我想你沒有認真看的前面的回覆,我說的不是「誰用的到誰用不到」的問題,我是說設備支援的問題。如果你給別人發的是一個pdf文件並包含全字庫字型,這時你需要pdf內嵌全字庫字體,那你為甚麼不乾脆直接發張圖片給對方?

現在誰家的電腦預置全字庫字體?更不用說一般人是不懂安裝字體的。

IanHo

你自己覺得方便的方法,別人不見得覺得方便。你自己覺得麻煩的做法,或許別人覺得理所當然應該這樣操作。

我是不曉得你有沒有注意過近十幾年來的一個演變細節?早些年中華民國教育部公眾授權網下載的國語字典資料打包檔,

裡頭罕用字的 png/gif 字圖幾十個,一年一年過去了,罕用字的png/gif字圖數量減少了?為什麼,因為新版的字型支援的漢字更多了!

有部分 png/gif 字圖不必要了!

三年前我跟中華民國教育部和全字庫跑過實體公文流程往返申請造字,請他們把五一七個漢字部件的獨立碼位向量字圖全部造齊,

原本只有將近三分之二的漢字部件獨立碼位向量字圖而已,耗了將近一年,全字庫終於補齊五一七個漢字部件的獨立碼位向量字圖了!

定義內碼並製作字型,確實可以減少圖片的使用。然而如你所說,減少打包圖片就是它的為數不多的「好處」之一。而本質上並沒有改變甚麼,減少的圖片轉換成了臃腫的字體。

對於這種場景,一般人會外掛svg圖檔。全字庫既然有政府資助,它定義內碼再製作字體,它能摃的動這樣大的項目。然而對於民衆而言沒有太大的意義。

IanHo
23
Promote 0 Bookmark 02021-12-30quote  

我覺得你還是搞不清楚全字庫是做什麼用的!

行政院國發會全字庫和教育部國語辭典是兩件事。

唉,雞同鴨講~~~

你的字裡行間,我從來不認為你是在溝通,我認為你只是在嗆!

e201302012123@g

 

我是大陸人,但並不意味著我們不能溝通及相互理解。我認為你講的話我都能聽懂並理解,我也沒有見到你說我的哪句話你聽不懂。

請注意,我個人是不使用簡化字的,包括日常的手寫。我在27歲往後學習毛筆字,以唐帖虞世南等名家真跡進行臨摹。同時我讀了四書五經等不少古書,直讀清代及宋版的印影古籍。據我對楷書的了解,「来乗絶衆」這些都是正楷漢字。

如果我想刻意裝成臺灣人,我完全可以用「來乘絕眾」等臺灣標準正體字。我對臺灣正體的了解,恐怕一般的臺灣民衆難以企及。更何況我用的是倉頡輸入法,對於想要打甚麼字完全是遊刃有餘。

 

我很同情你的遭遇,不過你不用跟我講這麼多。我於2019年八月上街跟人講真相勸三退,被當局抓去關了十五日。我是大陸人,但我是具有國際觀的大陸人。

張惠妹比你更慘,她就在慶典上唱了首中華民國國歌。她是中華民國公民,她難道不能唱國歌?就這也被大陸某些人抓住利用。

我生長於大陸,但我想我應該也是「受害者」。這裏的人的思維不是善意講理,而是挖苦諷刺。

 

全字庫或許有它的用處,但是使用和維護成本很高。一件事情有利必有弊。你認為我跟你雞同鴨講,可能是因為我只看到它的缺點,你只看它的好處。

如上所述,全字庫是否佔用過多臺灣朋友的稅款,這個不是我感興趣的話題。我講的是像unicode跟全字庫這樣的無限擴容字庫的做法,其實是錯誤的。我可以即刻列出五條以上它的弊端。並且現在的電腦早就有了造字的方法,當你所需要的字形不在裏面,你也只能新造;而要確認「我需要的字形在不在全字庫」本身,就是一個很困難的事情。同時,全字庫只有它自己製作的楷體宋體兩個字體。你根本找不到其它的字體支援。而衆所周知,全字庫做的字體…

教育部重編國語辭典和異體字字典已經接受了我的幾個建議(好像現在不是教育部了?),根據我的建議更正了一些內容。他們知道我是大陸人,因為我是用126郵箱發送的,我也沒見他們說「臺灣的字典不需要大陸人多管閒事」。究其原因,我認為中華文化是無國界的,文化承載的是道理,而道理是相通的。(有時你會覺的動物都講道理)

e201302012123@g

 

這個事情你可能沒有做過,等你去做你就知道了。google等檢索工具靠的是文字索引,而你連這個字都還沒拿到,你拿甚麼去搜尋。更何況全字庫的內碼跟unicode是不相通的,google用的是unicode。你試著拿ext-b以上的字形去google搜尋,幾乎不可能出来一個有用的結果。 

不用說檢索不到,就算是千辛萬苦找到了,你所花費的時間精力遠超你直接造一個字。可能你對fontforge等造字軟體了解不夠,不是自己畫向量,而是用現成的部件去構造新字。你認為現在市面上的字型檔,包括全字庫的字型檔,每一個都是從白板開始新畫的嗎? 

對於文字要求較高的行業,他不會畫矢量圖,那他還懂甚麼? 

全字庫提供的字典只有楷體和宋體,它們其實都屬於楷書。而文字學有時要寫到楚帛秦簡等各種字型。這時你要去找「全字庫的內碼定義」簡直就是緣木求魚。

e201302012123@g

 

倉頡不等同於注音和部件、部首、筆畫。因為倉頡是一個實用的中文輸入法,可以用来打字寫文章。比如我使用多年的雅虎奇摩倉頡,就是全字庫做的。 

當然注音或許也可以打字聊天,但是注音跟拼音一樣,重碼過多。更何況對於全字庫,這麼多奇形怪狀的字,你根本不可能知道它們的讀音。 

臺灣國語,也就是大陸普通話,採音自北京郊區。當你為那些奇怪的字形賦音時,你根本沒有依據。

 

我想你沒有認真看的前面的回覆,我說的不是「誰用的到誰用不到」的問題,我是說設備支援的問題。如果你給別人發的是一個pdf文件並包含全字庫字型,這時你需要pdf內嵌全字庫字體,那你為甚麼不乾脆直接發張圖片給對方? 

現在誰家的電腦預置全字庫字體?更不用說一般人是不懂安裝字體的。

 

定義內碼並製作字型,確實可以減少圖片的使用。然而如你所說,減少打包圖片就是它的為數不多的「好處」之一。而本質上並沒有改變甚麼,減少的圖片轉換成了臃腫的字體。 

對於這種場景,一般人會外掛svg圖檔。全字庫既然有政府資助,它定義內碼再製作字體,它能摃的動這樣大的項目。然而對於民衆而言沒有太大的意義。

 

edited: 2
e201302012123@gmail.com
24
Promote 0 Bookmark 02021-12-30quote  

IanHo

我覺得你還是搞不清楚全字庫是做什麼用的!

行政院國發會全字庫和教育部國語辭典是兩件事。

唉,雞同鴨講~~~

你的字裡行間,我從來不認為你是在溝通,我認為你只是在嗆!

全字庫是做內碼定義和字體的。我很明白全字庫屬於行政院(我前面有講到,我早在多年年做的網頁就這樣寫)。

你不要以為我是大陸人我就搞不懂,我用雅倉用了九年,雅倉就直接是全字庫製作的。

教育部只是定了標準楷書的母稿,字體是全字庫在製作,或者說全字庫基於教育部的母稿字體進行擴展。這就是為甚麼你從全字庫下載的字體,跟教育部提供的字體對比,基本區漢字完全一樣的原因。

我覺的互相提供資訊是論壇交流的好處,我只是講了我所知道的訊息。至於你覺的我是在「嗆」,可能是我的說話風格確實就是機關槍似的逐個問題說明清楚,並且倉頡輸入法打字很流暢,一打起字来就不知不覺寫很多。

我不想說服或強迫你,我只提供我知道的訊息,接不接受完全在你。

還是說你不習慣論壇上的交流,我覺的如果你有在北大中文論壇或者某些論壇上與人交流的經驗的話,你應該會知道我只是希望把道理講明白,而不是要戰勝對方。那些真正具有惡意敵意,或者天生就愛飇狠話不服輸的人,可能才是那種你說的「嗆」吧。

e201302012123@gmail.com
25
Promote 0 Bookmark 02021-12-30quote  

行政院跟教育部,都是臺灣政府組織,我不認為我說的有甚麼問題。我並沒有說全字庫是教育部主持的。

IanHo
26
Promote 0 Bookmark 02021-12-30quote  

如果我一開始就有注意到頁面左側的細節的話,我一開始就會選擇略過,

不過既然現在才注意到,也寫了一堆了,那寫了就寫了,學個經驗就是了。

e201302012123@gmail.com
27
Promote 0 Bookmark 02021-12-31quote  

IanHo

如果我一開始就有注意到頁面左側的細節的話,我一開始就會選擇略過,

不過既然現在才注意到,也寫了一堆了,那寫了就寫了,學個經驗就是了。

據赴臺人士介紹,不少臺灣人有天生優越感,會僅僅因為出身而去鄙視某些人。他說甚麼不重要,重要的是他是哪裏人。

一個大陸女孩遠嫁臺灣之後,有一次她被問到她来自哪裏,她忽然不知道怎麼回答。「大陸」,「內地」,「中國」,沒有一個詞是合適的。她說如果是一個臺灣人,不論他說「我剛從大陸回来」還是說「我準備去中國一趟」,都沒有任何問題。

再有一次,她吐槽她的女兒被醫生誤診,造成她很大的麻煩。結果被人轉載fb之後,上面有人說叫她女兒「直接去死」,還獲得幾十人點讚。


她的経験我也沒遇到過,總而言之,保護臺灣,反抗暴政,是大家共同的責任。因為臺灣是最後一片完整保存中華文化的國家。

cht電腦資訊輸入法
adm Find login register
views:30969