cht電腦資訊gcin
adm Find login register

[下載] Unicode 5.1.0 字元產生器 - 支援全部 U+0000 到 U+10FFFF

caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
1subject: [下載] Unicode 5.1.0 字元產生器 - 支援全部 U+0000 到 U+10FFFFPromote 2 Bookmark 12009-05-03quote  

google 老半天,「好像」沒有其它同樣的工具(列印大範圍 UTF-8 字元)

這可以用來整理 .cin 檔,檢查字型漏字等等。

下載 allutf8-0.0.3.tar.gz (只依賴 libc) (0.0.3 為 letoh 全面改寫)

1. 預設是印出所有「有定義的」UTF-8 字元 (Unicode 5.1.0 沒定義的不印出)
1. (依據為 http://unicode.org/Public/UNIDATA/DerivedAge.txt)
1. ./allutf8

2. -h 顯示簡單用法
2. ./allutf8 -h

3. -r <hex> 顯示特定的字碼
3. ./allutf8 -r 005a

4. -r <hex> <hex> 顯示範圍內所有字碼,包括 Unicode 沒定義的字元
4. ./allutf8 -r 005A 007a

5. 加上 -f print 則只印出「能顯示的」UTF-8 字元 (「有定義的」Unicode 字元,去掉 control, private-use, noncharacter, surrogate)

6. 支援任何 locale

edited: 6
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
2subject: Promote 0 Bookmark 02009-04-25quote  

類似的工具我以前寫過:

ftp://cle.linux.org.tw/tex/cjk/tools/

那個 ucschar 就是,應該稍微改一下就可以用。不過,我是用 ruby 寫的。


edited: 1
caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
4subject: Promote 0 Bookmark 02009-04-26quote  

比起 gcin 內碼輸入還有一大好處,就是不受編輯器限制。

許多文字編輯器都有處理限制,無法 顯示/儲存 某些 UTF-8 資訊。

allutf8 可以處理所有 Unicode 定義,不怕 locale data 有 bug。

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
5subject: Promote 0 Bookmark 02009-04-26quote  

這邊也放一份:

ftp://cle.linux.org.tw/tex/cjk/tools/allutf8-0.0.2.tar.gz


本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
6subject: Promote 0 Bookmark 02009-04-26quote  

有沒有把 charucs 也整合進去的打算?微笑

目前的 charucs 的缺點是,偷懶用了 libiconv,也就是說,在 linux 系統(glibc iconv)和 bsd 系統(GNU libiconv)會有不同的結果。

不過,要實作 libiconv 的工程好像會有點大就是了。可能就是還是用 libiconv,但結果會不同的地方,另外處理。


caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
7subject: Promote 0 Bookmark 02009-04-26quote  
LGJ
有沒有把 charucs 也整合進去的打算?微笑

我傾向用 allutf8 出字後再丟給其它工具程式(iconv 之類的)轉碼。

協助現有工具 debug 似乎比自己重寫好?(何況我沒有重造輪子的功力)

簡繁轉換、GBK / GB2312 / GB18030 轉換、locale data bug ← 這些其實都還有很多工作可以做啊。

1. 簡繁轉換,目前各種工具各玩各的,卻全都玩不好(每種工具各有優缺點)

2. glibc 當前版本,在轉 UTF-8 ←→ GBK 和 UTF-8 ←→ GB2312 仍有少數字符沒有 100% compatible (理論上 GBK 應該 100% 相容於 GB2312)

3. Tetralet N 年前就有 report zh_TW locale / Xlocale bug, 但目前為止似乎還沒修好。

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
8subject: Promote 0 Bookmark 02009-04-26quote  

caleb
協助現有工具 debug 似乎比自己重寫好?(何況我沒有重造輪子的功力)

就是因為這樣才會說自己來。因為這個事情是從居士那個時候一直到現在,顯然,這不是技術問題。是技術上的問題都好解決。現在有許多 project 是不太接受「協助」的。無力之下,只好自己來。


caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
9subject: Promote 1 Bookmark 12009-05-03quote  

上傳了 0.0.3,由 letoh 全面改寫,更精簡更好維護、更容易擴充新功能。

Changelog:
0.0.3
 [ letoh ]
 * Remove all global variables
 * Use a table to define the available code range
 * Add simple parser to handle command line options
 * Add output width (-w) and delimiter (-d)
 * Add filter (-f)
 * Add a wrapper script
 * Remove (-p) option

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
10subject: Promote 0 Bookmark 02009-05-03quote  

哇,hotel 萌主出手了。Thanks 微笑

以後在這裡都會 mi 一份,往後就不再通知,但我忘記了的話,請提醒一下。

ftp://cle.linux.org.tw/tex/cjk/tools/


cht電腦資訊gcin
adm Find login register
views:27870