| |||||||
adm | Find | login register |
google 老半天,「好像」沒有其它同樣的工具(列印大範圍 UTF-8 字元)。
這可以用來整理 .cin 檔,檢查字型漏字等等。
2. -h 顯示簡單用法
3. -r <hex> 顯示特定的字碼
4. -r <hex> <hex> 顯示範圍內所有字碼,包括 Unicode 沒定義的字元
5. 加上 -f print 則只印出「能顯示的」UTF-8 字元 (「有定義的」Unicode 字元,去掉 control, private-use, noncharacter, surrogate) 6. 支援任何 locale edited: 6
| |||||||||||||
edited: 1
| |||||||||||||
比起 gcin 內碼輸入還有一大好處,就是不受編輯器限制。 許多文字編輯器都有處理限制,無法 顯示/儲存 某些 UTF-8 資訊。 allutf8 可以處理所有 Unicode 定義,不怕 locale data 有 bug。 | |||||||||||||
| |||||||||||||
有沒有把 charucs 也整合進去的打算? 目前的 charucs 的缺點是,偷懶用了 libiconv,也就是說,在 linux 系統(glibc iconv)和 bsd 系統(GNU libiconv)會有不同的結果。 不過,要實作 libiconv 的工程好像會有點大就是了。可能就是還是用 libiconv,但結果會不同的地方,另外處理。 | |||||||||||||
我傾向用 allutf8 出字後再丟給其它工具程式(iconv 之類的)轉碼。 協助現有工具 debug 似乎比自己重寫好?(何況我沒有重造輪子的功力) 簡繁轉換、GBK / GB2312 / GB18030 轉換、locale data bug ← 這些其實都還有很多工作可以做啊。 1. 簡繁轉換,目前各種工具各玩各的,卻全都玩不好(每種工具各有優缺點) 2. glibc 當前版本,在轉 UTF-8 ←→ GBK 和 UTF-8 ←→ GB2312 仍有少數字符沒有 100% compatible (理論上 GBK 應該 100% 相容於 GB2312) 3. Tetralet N 年前就有 report zh_TW locale / Xlocale bug, 但目前為止似乎還沒修好。 | |||||||||||||
就是因為這樣才會說自己來。因為這個事情是從居士那個時候一直到現在,顯然,這不是技術問題。是技術上的問題都好解決。現在有許多 project 是不太接受「協助」的。無力之下,只好自己來。 | |||||||||||||
上傳了 0.0.3,由 letoh 全面改寫,更精簡更好維護、更容易擴充新功能。
Changelog: | |||||||||||||
|
| |||||||
adm | Find | login register |