cht電腦資訊gcingcin wish
adm Find login register

建議新版的輸入法表格檔可搭配全字庫

tw_chi
1 建議新版的輸入法表格檔可搭配全字庫
Promote 0 Bookmark 02009-02-16quote  

小弟在使用預設安裝的GCIN時

如果不改為其它的輸入法表格檔

常有缺字的情況

建議未來新版的GCIN是不是納入

OXIM輸入法現有的中標倉頡及中標注音當作

未來GCIN的內定倉頡及注音輸入法呢 ?

這樣碰到一些怪字 的情形將會幾乎不存在

eliu
2
Promote 0 Bookmark 02009-02-16quote  

目前的 倉頡五 cj5 換掉有沒有反對,我的印象是 cj5 好像沒什麼人在用。

可以提供 download 的 url 嗎?也可以附加在本討論串裡。 

edited: 1
guest
3
Promote 0 Bookmark 02009-02-17quote  

在 OpenDesktop的網站上有三種中文輸入法

那三種(倉頡注音簡易)因為要配 合全字庫的關係,

所以可抓取字數大約是目前最齊的

http://www.opendesktop.org.tw/modules/wmpdownloads/singlefile.php?cid=5&lid=21

在您的官網上也有連結

 http://cle.linux.org.tw/trac/wiki/GcinTables

coolcd
4
Promote 0 Bookmark 02009-02-17quote  

輸入法參考檔 那邊提供的輸入法參考檔,除了 CNS11643 輸入法之外,都無法下載,都會出現 "550 failed to change directory"。

edited: 1
eliu
5
Promote 0 Bookmark 02009-02-17quote  

決定用倉頡馬來西亞之友的 cj5

pho-huge.tab.src 有沒有人要整理一下。

這是注音巨大字集用的。

老實說,太多字對注音的使用者是很大的負擔。所以要拆成兩個。

edited: 2
guest
6
Promote 0 Bookmark 02009-02-17quote  

它的檔案這裡有提供原始碼

ftp://ftp.opendesktop.org.tw/odp/OXIM/Source/

caleb
7
Promote 0 Bookmark 02009-02-17quote  

 

tw_chi
如果不改為其它的輸入法表格檔

常有缺字的情況

oxim 最為人詬病的就是「預設輸入法選字、操作習慣與一般人不同」。

中標倉頡是倉三混合倉五,導致一般人(用倉三或 win32 倉頡/新倉頡 的人)不爽,而倉五 user 也不爽。

中標注音選字序十分莫名其妙,且收錄不全(欠很多日文漢字),重覆字又多到天怒人怨,很多有問題的發音也沒修 (一句話:品質很爛)。

不過中標注音爛歸爛,收的字是比 gcin 目前注音多 (gcin pho-huge.tab.src 是來自早已停滯的 xcin cvs, gcin 0.9.0 changelog 中的【某某】就是我。)

tw_chi
這樣碰到一些怪字 的情形將會幾乎不存在

目前沒有哪套 輸入法/輸入法對照表 是完整支援 latest Unicode spec ,就算只考慮 CJK 也一樣。

eliu
決定用倉頡馬來西亞之友的 cj5

我贊成用「倉頡之友‧馬來西亞」的,因為他們用純正倉頡五代編碼,一直有努力改版,也有專門的討論區、更有一群熱心用戶隨時反饋。

oxim 的是倉三倉五混合編碼,而且坦白說不知道是誰編的。

eliu
pho-huge.tab.src 有沒有人要整理一下。

我懶得整理,不過如果有人整理,我願意 review 。

gcin trac 的 gcin2pho 可以直接把注音 cin 檔轉成 pho.tab.src / pho.tab / pho-huge.tab.src / pho-huge.tab

對於有需求的人來說,技術上沒有任何問題。

而需要大量輸入罕用字的人(這種人很少),其中絕大多數不可能用注音來輸入罕用字,多半會選用倉頡、嘸蝦米之類字形拆碼法。

tw_chi
8
Promote 0 Bookmark 02009-02-18quote  

因為學校單位學生人名奇奇怪怪的不少,看似用不到那麼多字,其實不然

小弟的想法很簡單,只要儘量不缺字就好了

所以用那一套都沒什麼意見,只是自己在測試 時發現OXIM好像都可以輸出這些字,至於輸入上還真的和平常的拆字差異不少 。

至於在學校環境用到罕用字輸入的人可能只是一般的職員而已。

像我們學校50多歲的人了,只會注音,要她會其他的輸入法倒有點難,所以希望注音不要將罕用字排除 。

小弟很樂意來幫忙整理,不過可以動工大概是89月的事了,到時如果沒有人捷足先登

小弟再來儘一份力。

IanHo
9
Promote 0 Bookmark 02010-08-28quote  

這裡分享一個我的 二次創作品

全字庫注音輸入法表格檔2010 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)

http://www.openfoundry.org/of/projects/1603

點選網頁內的"更多..."可查看更詳盡的 專案描述

這應該是到目前為止最全的注音輸入法表格檔了吧!?

tw_chi

因為學校單位學生人名奇奇怪怪的不少,看似用不到那麼多字,其實不然

小弟的想法很簡單,只要儘量不缺字就好了

所以用那一套都沒什麼意見,只是自己在測試 時發現OXIM好像都可以輸出這些字,至於輸入上還真的和平常的拆字差異不少 。

至於在學校環境用到罕用字輸入的人可能只是一般的職員而已。

像我們學校50多歲的人了,只會注音,要她會其他的輸入法倒有點難,所以希望注音不要將罕用字排除 。

小弟很樂意來幫忙整理,不過可以動工大概是89月的事了,到時如果沒有人捷足先登

小弟再來儘一份力。

snik
10
Promote 0 Bookmark 02010-09-05quote  

支持 tw_chi 兄的建議。

小弟不成熟的見解,是否可以把 包含在 CNS11643 以內的正體字 減去Big5 的字先造出編碼來,加進原本的.cin 內,轉檔後立即可以使用了。

 問題是哪裡有這多出來的數千正體字的列表?

小弟也可點盡棉力,把這數千正體字用「大易」碼編。

edited: 1
coolcd
11
Promote 0 Bookmark 02010-12-06quote  

IanHo

這裡分享一個我的 二次創作品

全字庫注音輸入法表格檔2010 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)

http://www.openfoundry.org/of/projects/1603

點選網頁內的"更多..."可查看更詳盡的 專案描述

這應該是到目前為止最全的注音輸入法表格檔了吧!?

歹勢多事一下,因為網站上的說明排版預設是藏起來的,沒注意的人找不到,而且原文排版不太容易閱讀,所以我重排了一下,並把部分標點改為全型 (如排版過程因疏忽而導致文字漏掉或意思與原文有出入,請以原文為主):

www.opendesktop.org.tw 有一個"全字庫注音輸入法參考檔",但該檔案於 2006.2 之後就沒再更新了。因此筆者產生一個想法,以筆者有限的試算表軟體與進階純文字編輯器操作能力,有無可能參考"全字庫注音輸入法參考檔"的基本規格,再製作一份 2010 年的最新版本出來,在 GOOGLE 了許多網路資源之後,終於製作出"全字庫注音輸入法表格檔 2010"。以下盡可能在4000字內簡述製作過程,根據被參考的表格檔,新版的表格檔須注意到的規格有:這個純文字表格檔,為 UTF-8 編碼格式內容的注音符號的傳統英文鍵位與 UNICODE 字元。支援到目前最新的 UNICODE 5.2 版標準,搭配的參考字形檔為全字庫正楷體和全字庫正宋體兩組共六個。

  • TW-Kai-98_1.ttf;
  • TW-Kai-Ext-B-98_1.ttf;
  • TW-Kai-Plus-98_1.ttf;
  • TW-Sung-98_1.ttf;
  • TW-Sung-Ext-B-98_1.ttf;
  • TW-Sung-Plus-98_1.ttf.

(98 筆者推測為民國年分,將來會有版本更新)

包含的BLOCK有:

  • Basic Multilingual Plane (BMP)(全字庫稱之為 第0字面) 裡的
    • CJK Unified Ideographs 碼位範圍004E00..009FFF 包含字元數20,940
    • CJK Unified Ideographs Extension A 碼位範圍003400..004DBF 包含字元數6,582
  • Supplementary Ideographic Plane (SIP)(全字庫稱之為 第2字面) 裡的
    • CJK Unified Ideographs Extension B 碼位範圍 020000..02A6DF 包含字元數42,711
    • CJK Unified Ideographs Extension C 碼位範圍 02A700..02B73F 包含字元數4,149
    • CJK Compatibility Ideographs Supplement 碼位範圍 02F800..02FA1F 包含字元數 542
  • 另外還有 Supplementary Private Use Area-A 0F0000..0FFFFF(全字庫稱之為 第15字面)

    這是因為中華民國國內標準的 CNS11643 中文全字庫已經定義了近十萬中文漢字,但是屬於外國標準的 UNICODE 還沒有跟上這個進度,到 5.2版為止只有定義了七萬多漢字的碼位,所以以 TW-Sung-Plus-98_1.ttf 為例,就做了近兩萬字碼位對應到 Supplementary Private Use Area-A 這個暫存區,既然是暫存區表示以後若有更新版一定會有所變動的。

筆者所申請的全字庫的字形檔,當時還未包含所有的碼位的字形,所以要找一些其他字形來填補,筆者找到的有:

  • 花園明朝(HanaMin) hanazono.ttf
    http://fonts.jp/hanazono/
  • hannomH.zip 內含HAN NOM A.ttf、HAN NOM B.ttf
    http://vietunicode.sourceforge.net/
  • BabelStone Han
    http://www.babelstone.co.uk/Fonts/Index.html

筆者在 GOOGLE 網路資源時,發現這個對照表跟中華民國政府資訊部門CNS11643 中文全字庫有關,就查詢該網站,並跟該網站跑實體書面的公文流程往返,申請到了全字庫光碟片,裡頭有前面所提及的六個字形檔以及各種編碼對照表等等,但就是沒有筆者所期待的 UNICODE5.2 版注音符號"傳統英文鍵位"與 UNICODE 字元對照表.於是跟全字庫單位EMAIL與電話聯繫溝通,感謝全字庫單位願意撥冗免費協助,提供客製化資料,筆者終於取得 UNICODE 5.2 版注音符號與 UNICODE 碼位對照資料,透過進階文字編輯器與試算表軟體,以及編碼字元轉換軟體,筆者終於拼裝完成所需之注音符號"傳統英文鍵位"與UNICODE 字元對照表。

在拼裝的過程中要注意的是,參考了範例檔案,先將所有的 BLOCK 依照UNICODE 碼位的大小順序合併並排列,然後以注音符號的欄位為順序來排列,讓所有有相同注音符號的 UNICODE 碼位都集中在同一個段落,再將所有的注音符號都置換為傳統鍵盤排序的鍵位上的小寫英文字母(例qwerㄆㄊㄍㄐ),最後使用編碼字元轉換軟體將所有的 UNICODE 碼位轉換成 UNICODE 字元,一個基本的注音符號對照表大致完成。

有幾點要注意,注音的輕聲符號在傳統的注音輸入法中應該也跟其他聲調符號一樣擺在注音符號之後.有需要客製化對照表的使用者,可以客製化一遇到因應新漢字和新注音符號的增加而要改版時的對照版本,就是對照表中的原始 UNICODE 碼位依照大小順序排列,可方便辨識前面所提過的 BLOCK,還有就是注音符號和漢字的特性有一音多字和一字多音的狀況,而筆者分享的版本例如,一個發音"ㄏㄨㄤˊ(鍵位為"cj;6")"對照 154 個不同 UNICODE 碼位的漢字字元,所以全字庫資料所提供的注音符號對照表全部整理列出來後有將近 10 萬 6 千多筆.若有需要顧慮文件檔的流通方便性,可捨去第15字面碼位的對照資料,也就是不用 TW-Sung-Plus-98_1.ttf 裏頭的中文漢字了。

但若只是純粹單機作業就看個人需求了,最後這份文件所提及的"全字庫注音輸入法表格檔2010"最原始的編製,使用與測試環境的作業系統平台為 PowerPC 架構的 MacOSX10.4.11 版搭配開放香草輸入法框架0.8版,可順利運作。其他作業系統版本與輸入法框架版本筆者目前並未測試,最後補充一個,這個輸入法表格檔內並未放入純單個注音符號鍵位與字元對照,因為注音符號在 UNICODE 有專屬的 BLOCK,有需要的使用者請參考以上文件後自行編檔加入,又想到一個狀況,在開放香草輸入法框架,若要讓選字視窗能顯示所有 BLOCK 的漢字以避免方塊字,盡可能選擇編碼數較後面的字形檔當選字視窗顯示的字形檔,例如選擇 TW-Sung-Plus-98_1.ttf。

參考連結

  • OSS 桌面應用增進計畫 - 檔案下載:
    全字庫注音輸入法參考檔
    http://www.opendesktop.org.tw/modules/wmpdownloads/singlefile.php?cid=5&lid=10
  • CNS11643 中文全字庫
    www.cns11643.gov.tw/
  • 製作新的輸入法cin檔
    http://cle.linux.org.tw/trac/wiki/GcinMakeCin
  • OpenVanilla 使用說明:
    https://docs.google.com/View?docid=ah6d8th954vw_1896zrnrb
  • OpenVanilla 使用說明 » 刪除、修改與設計自己的輸入法
    https://docs.google.com/View?docid=ah6d8th954vw_201fd5dkx
  • 支援 CJK Ext-B 字元的「泰瑞注音輸入法對照表」(製作過程篇) @ 泰瑞的世界 :: 痞客邦 PIXNET :::
    http://terryhung.pixnet.net/blog/post/24898194
  • 公有領域 - 維基百科,自由的百科全書:
    http://zh.wikipedia.org/zh-tw/公有领域
  • Creative Commons — Attribution-NonCommercial-ShareAlike:
    http://creativecommons.org/licenses/by-nc-sa/3.0/tw/
  • Unicode Code Converter
    http://rishida.net/tools/conversion/
  • TextWrangler
    http://www.barebones.com/products/textwrangler/
  • UnicodeChecker
    http://earthlingsoft.net/UnicodeChecker/
  • OIKOS 生活網 蘋果電腦/iPod網站 / X!數典忘祖的中文電腦:
    http://www.oikos.com.tw/v4/viewtopic.php?pid=521942
  • 泰瑞的世界
    http://terryhung.pixnet.net/blog
  • 拜託!問題在編碼!──論大學甄選入學的數位化 « YORKXIN×YORKXIN:
    http://blog.yorkxin.org/2008/09/28/on-digitize-of-caa/
  • ~~~很重要~~~
    從台大榜單得 (偽) Unicode 技術學問 « YORKXIN×YORKXIN:
    http://blog.yorkxin.org/2009/04/14/unicode-f900-and-ntu-recruit-list/
黑諾
12
Promote 0 Bookmark 02015-01-16quote  

eliu

目前的 倉頡五 cj5 換掉有沒有反對,我的印象是 cj5 好像沒什麼人在用。

我是從「無蝦米」老手,投奔到「倉頡第五代」新手。
(當初考慮了並打了近兩個月,才從倉三轉倉五)

黑諾
13
Promote 0 Bookmark 02015-01-16quote  

eliu

pho-huge.tab.src 有沒有人要整理一下。
這是注音巨大字集用的。

有人整理好了:
https://www.openfoundry.org/of/projects/1603/releases/download


eliu

老實說,太多字對注音的使用者是很大的負擔。所以要拆成兩個。

同意!!

cht電腦資訊gcingcin wish
adm Find login register
views:51177