| adm | Find | login register |
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
| |||||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
http://cle.linux.org.tw/trac/wiki/GcinTables
參考資料: ------------------------------------------------------------------- | |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
我以老刀前輩提供的兩個 cin 檔為主,加上 gcin 的 ar30.cin 中 %quick 區塊的詞彙,以及 「nctu 交通大學」之後的詞彙,整合出一個新的 cin 檔,如附件。 下載後,按教學做即可。 | |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
頭大了,openvanilla 的 array30.cin 好像有些字的相容碼比較少 例如:繼 在 ar30-big.cin 只有
但在舊的 ar30.cin 有
edited: 1
| |||||||||||
eliu joined: 2007-08-09 posted: 11480 promoted: 617 bookmarked: 187 新竹, 台灣 |
可以用sort | uniq 合併嗎?
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
剛發現我搞錯一個地方,原以為老刀前輩的 array-special.cin 沒有包括在 array30.cin 中,還特別加進去,後來才發現,其實 array30.cin 內已有 array-special.cin 的特殊碼了,所以剛又把該刪的刪掉,更新了前面那個附檔,有需要的請重新下載。
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
更正:「繼」在 ar30-big.cin 中有的編碼是
不是
另,caleb 的意思是,把兩個檔合起來,再用 awk 或 perl 刪除重覆行? 可是合起來時,順序還是會亂? | |||||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
要單獨先刪,然後比對後插入,這個一行文 script 比較不容易完成,要寫一個完整的小 script 處理。
又有新題目了,大家上吧!
| |||||||||||
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
真是不好意思 沒想道害大家這麼麻煩!大家辛苦了!
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
剛又發現,不只是相容拆碼有變 (有的字相容拆碼變多、有的變少),有些拆碼拼出的字也有變,譬如:「變」的相容拆碼變少,eiz 與 bjk 拼出來的字變成簡體,龜的相容拆碼則是變多。
edited: 1
| |||||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
我不熟行列輸入法。合併與否可能要使用行列的人來判斷。
可以先把兩個檔的大小寫及按鍵和中文字間空白統一,再來 diff 來決定是否要合併。有些合併可能造成多選字,所以合併不一定是好。但如果 A 沒有的字而 B 有的字,那麼把這個字由 B 加入 A,一般來說,應該是合理的。
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
把前面檔案做了些整理
附檔包含三個檔案
| |||||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
首先,這兩個 cin 檔的格式不統一,所以 diff 出來等於是兩個相加的結果。就是,你那個 diff,其實是 ar30.cin + ar30-big.cin,因此失去了 diff 意義。 再來,這個騷主意是我出的。Orz 不應該用 diff,因為兩者格式差太多。最簡單的方式就是把兩個檔格式統一後,以陣列的方式讀進入,然後兩個相減就成了。以下附檔 noinorig.txt.bz2 就是減出來的結果,也就是在 ar30-big 卻不在 ar30 的字。
| |||||||||||
guest |
我是 OpenVanilla 行列輸入法表格的製作人「老刀」。首先感謝 coolcd 兄提供連結,讓我知道原來我的舉手之勞,在這邊竟能引起如此大的回響。 其實我自己也是 gcin 的使用者 (on Fedora 9)。為了在 Fedora 上面可以打出更多的 unicode 字,我也曾於多年前製作過適合 unicode 3.1 字集的行列輸入法檔給 gcin 使用,除了提供予 caleb 兄掛在他的網站上,並請 gcin 團隊收入正式的發行套件中,但當時似乎沒引起太大的重視,gcin 官方版發行套件至今也未見擴增行列輸入法的支援字數,這個構想可謂無疾而終。 由本篇「蓋樓」的情形下看來,gcin 擴增支援字數還是有它的必要。故亦藉此篇文章建議 gcin 團隊,再次考慮擴增支援字數的可行性。 | |||||||||||
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
內建的行列與輸入法下載裡的「行列30」好像是不一樣版本 | |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
老刀賤(本)名不足掛齒啦!呵呵。 BTW,我正式加入 gcin 討論版了,這也是我以討論版帳號發文的第一篇文章。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
歡迎老刀來𨑨迌~ 關於 gcin 的行列支援,目前可能以相容性為主,caleb 最近有寫一篇說明
http://hyperrate.com/thread.php?tid=7393
站在使用者的角度來想,自行安裝可能稍嫌麻煩,不知 eliu 可否比照詞音的做法,把 ar30-big.gtab 也加到 gcin,讓人可以在行列的設定裡選擇使用大字集? | |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
其實 OpenVanilla 支援 unicode 3.1 的行列輸入,與 gcin 內底支援 unicode 2.0 的行列輸入,兩者相容性是沒問題的(同樣支援一、二級簡碼、行列特別碼),最大的差異只是支援的字集範圍不同(OpenVanilla 七萬字、gcin 二萬字)。此外,雖然新版行列的特別碼數量有再擴增,但這都是行列輸入法官方定義的,我個人並沒有為它加油添醋,保證原汁原味。換言之,個人認為 caleb 兄顧慮「相容性」的問題並不存在。 如果 gcin 還是堅持收錄二萬字的版本,我是沒意見啦,只是需請有經常要輸入 unicode 的使用者們(通常是文字工作者)辛苦些,自己動手加工一下還是可以的。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
edited: 1
| |||||||||||
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
你好:
這個檔案是行列 Unicode 的所有字
array30_27489.txt
此檔案為 Unicode
前20902字
加上 ,。:;○ 這幾個特殊符號碼 加上Unicode extention A 字集部份 請注意,這部份同碼字的編碼順序不能更動,因為重複字的排列順序。 編碼有包括容錯輸入碼 array30_ExtB.txt
此檔案為 Unicode Extension B
字集部份
編碼都包括容錯輸入碼 編碼原則:以重複字排序以繁體字在前 如係罕用字或簡體字和繁體較常用字重複會在多加一個 I 碼, 以避免輸入常用字時出現過多重複字。 因此如該字原編碼 為ABCD 編碼就會成了ABCDI 五個輸入碼 如果該字原編碼為ABC 就會被編成 ABCI 當使用者輸入時碰到打不出來的字,只要多加一碼 I 就可以打出來。 在 array30_27489.txt 裡,只要不重複都不加罕用碼I 但在 array30_ExtB.txt 的字集裡都一律加罕用碼 I -- 因為假定那些字都很少用到。
麻煩您了
廖明德
=== 以上 ====
小弟去要了這個,可能要請高手們幫忙研究了。
| |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
不必研究了,因為……我早已做好 .gtab 在自己的 Fedora 9 上面(來源正是官方提供的這 2 個檔),並放在 gcin 上面使用啦,呵呵。 有一點必須一提:因為 Fedora 9 內建的文鼎字並未包含 Unicode 3.1 CJK 全字集,故除了使用新版支援 Unicode 3.1 的行列輸入之外,使用者必須自己安裝支援 Unicode 3.1 的字型才行(否則選字窗內應出現的 CJK 字會因找不到對應文字,而出現「空白」)。至於支援 Unicode 3.1 的字型哪裡找?我是拿 Windows XP 裡的「細明體 Ext-B」來用的;當然,使用一些支援 Unicode 3.1 CJK 全字集的商業字型也行。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
edited: 2
| |||||||||||
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
小弟烏龍一場……
| |||||||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
老刀的 array30.cin 比廖明德先生提供的 array30_27489.rar + array30_ExtB.rar 多了 409 字。 這部份有官方版本嗎? 另外,特別碼的部份是否有官方版本呢? 老刀的 array-special.cin 和 gcin 目前的 ar30.cin 有顯著不同,就算只比較 ar30.cin 的特別碼首字,也有許多字不同。 | |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
caleb 兄所稱的這 409 字,是行列輸入法規格書定義的「一級簡碼」,這是行列輸入法很重要的一個功能,字鍵排列完是依官方定義的順序製作。另外,特別碼也是官方所定義的,其字鍵對應正如同 array-special.cin 所示。 最後,我也將我所依照新版 OpenVanilla 行列輸入法表格改製的「gcin 專用」ar30.cin 及編好的 ar30.gtab 放上,這個 ar30.gtab 我已在 gcin 1.4.2 測試過。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
| |||||||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
特別碼的部份我沒檢查,另外這個「gcin 專用」ar30.cin 建議再加上一行 %phase_auto_skip_endkey 如果一切 ok,就可以薦請劉老大在新版 gcin tarball 裡改放這個最新官方版本了。
| |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
我重新做了一版並已上傳更新。這一版我將 %phase_auto_skip_endkey 加上了,但好像加入前後看不出差別的樣子…… 另外,我發現原 gcin 的 ar30.cin 所提供的行列「二級簡碼」功能(即 %quick begin 和 %quick end 中間這一段)中,有少部分並未按照行列輸入法規格書的定義,我亦已按照官方規格書定義的順序一併更新。有需要的朋友,歡迎自行更新使用。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
| |||||||||||
alan joined: 2007-09-25 posted: 134 promoted: 7 bookmarked: 1 |
使用中,感謝!
| |||||||||||
coolcd joined: 2008-01-21 posted: 2601 promoted: 348 bookmarked: 95 |
老刀,你的 cin 檔內 chardef 區塊的第二欄有些是 tab,有些是空白,所以我把它統一修成 tab 了。還有,gcin 內建詞彙的部分,所有詞彙都變成小寫了,所以,我在這篇的附檔上傳修正過的 cin 與 gtab。
| |||||||||||
老刀 joined: 2008-11-02 posted: 217 promoted: 17 bookmarked: 9 新北市汐止區 |
一陣 uppercase -> lowercase 之後,我忘了將詞彙的部分復原了,謝謝您的指正。 ----- (可能是)現此時唯一用台文所寫的 3C 專題部落格「老刀烏白講」,歡迎你入來交關
|
| adm | Find | login register |