整理了注音、國音二式、威妥瑪拼音(Wade-Giles, 又稱威瑪拼音、韋氏拼音)、通用、漢語拼音、耶魯拼音基本的聲母、韻母的對照表。有志開發拼音輸入法的可以拿去用。
是我自己整理的,限於個人學識、資料、時間、耐心有限,所以不保證沒有錯誤,但我已盡力讓這張表正確了,如果有問題歡迎回報。
原本希望能有最 reliable 的來源,但不知道去哪裡找威妥瑪、通用、漢語拼音、耶魯拼音正式的說明,所以只好網路上找看起來比較詳細的。如果有人知道的話,請告訴我,感謝!
edited: 2
|
更新了第一篇的附檔,改用 LibreOffice Calc 來做對照表 (可輸出成 csv,方便處理)
包括注音符號、國音第二式、威妥瑪拼音、耶魯拼音、漢語拼音、通用拼音的對照
一個是簡易的聲母、韻母對照,一個是所有中文讀音的對照(包含音調)
所有對照都是按 XX拼音 <-> 注音 製作出來的
資料很多,雖我已盡量細心,但可能還是會有手誤或資料不完整而搞錯,希望有研究拼音的人幫忙抓蟲
授權的話,跟 gcin 一樣就好了,我不在意
edited: 2
|
IanHo
| 3
嘗試拼裝 全字庫規格的 漢語拼音 表格 遇到的瓶頸與狀況 |
0
0 | 2012-04-03 | quote | | |
筆者在這之前完全沒有使用過漢語拼音輸入法的經驗,現在為了嘗試看看能否製作出
全字庫規格的漢語拼音表格檔案,開始google資料,嘗試去了解漢語拼音到底是怎麼一回事, 跟全字庫申請資料光碟之後,其中有個純文字檔案,內容規格依其說明資訊文字大致如下, --------------------------------------------------------------------------- ---------------------------------------------------- 「CNS_pinyin_yyyymmdd.txt」為全字庫的拼音資料表格 ---------------------------------------------------- 第一個欄位:注音 第二個欄位:漢語(han) 第三個欄位:注音第二式(zuin2) 第四個欄位:耶魯(yale) 第五個欄位:韋式(wei)
PS:若要利用拼音方式查詢字碼的話,依下列步驟進行 1. 首先,輸入漢語(han)、注音第二式(zuin2)、耶魯(yale)或韋式(wei)其中一種的查詢字串。 2. 利用第一步驟所輸入的查詢字串,在拼音資料表格(即CNS_pinyin_yyyymmdd.txt)找到相對應的注音資料(第一個欄位)。 3. 再利用此注音資料,至全字庫的注音資料表格(CNS_phonetic_yyyymmdd.txt)查詢符合其條件的CNS碼。
----------------------------------------------------------------------------- 查詢之後留下,
第一個欄位:注音 第二個欄位:漢語(han) 第三個欄位:注音第二式(zuin2)
這三個欄位,其他欄位刪除,原始列數有1540列,整理之後片段內容如下, (使用libreoffice calc 和進階文字編輯器), ----------------------- ㄅㄚ bā ba ㄅㄚˊ bá ㄅㄚˇ bǎ ㄅㄚˋ bà ㄅㄚ˙ ba ㄅㄛ bō bo ㄅㄛˊ bó ㄅㄛˇ bǒ ㄅㄛˋ bò ㄅㄛ˙ bo ----------------------- 原始檔案的輕聲符號在前,因為只有幾十個,於是採取手動方式將注音輕聲符號挪至注音符號之後, 另外查詢了微軟新注音輸入法10.1版(鍵盤為漢語拼音模式),以及MacOSX10.5.8內建繁體拼音輸入法, 這兩著的說內建說文文件,得知鍵盤主按鍵區的鍵位對照為,
數字鍵 聲調 1 2 ˊ 3 ˇ 4 ˋ 5 ˙
然後筆者發現一個狀況了,就是 漢語拼音 真正要輸入字根組成漢字的時候, 在組字視窗內真正會出現的會是 ba3 ,而不會是 bǎ ,
所以筆者比須把原始檔案中上千行甚至上萬行的類似 bǎ 的型態字串, 修改改成類似於 ba3 的字串,才會是輸入法表格檔真正呈現的內容,現在麻煩了筆者嘗試老半天,還是理不出一套方法, 可以大量的一次性的,作字串選擇和替代的工作流程(筆者希望是在全圖形介面下, 用圖形介面工具軟體完成一系列的操作),還有些什麼方法?可以做到有效率的大量替換(或轉換)?
我有找過一些現成工具和資料,例如像是 中國哲學書電子化計劃 注音轉換工具 http://ctext.org/pinyin.pl?if=gb
這是中國大陸的網站資源,可是發現有bug ,就是在其介面輸入和輸出的注音符號輕聲符號 其系統端錯誤定義成 \u00B7 而非 \u02D9 ,所以變成不能用了.
另外 泰瑞版小小輸入法 http://terryhung.pixnet.net/blog/post/27223127 提供的是已完成的對照表和使用說明, 沒找到將 注音符號+聲調符號 或 漢語拼音書寫字母 轉換成 漢語拼音+(數字音調) 的相關文字資訊.
現在就是腦袋瓜一團混亂,理不出一個頭緒.
|
我嘗試看看描述我的問題,我有google找到,
泰瑞拼音輸入法(完整版)更新日期:2010.09.26 這個表格檔案,但這畢竟是前年的版本了,我想尋找從去年下半年到今天為止, 有無"最新版本"的漢語拼音輸入法表格檔案(資料筆數越大越好)? 然而我google不出所以然來,原本想說或許對岸的一些開放原始碼軟體打包檔裡頭找找看, 例如scim之類的,但也找不出所以然來, 在泰瑞拼音輸入法(完整版)資料中,用肉眼大致看過去, 代表漢語拼音聲調符號的數字鍵 1~5 每列就只有一個, 可是全字庫光碟提供的注音表格中,卻發現有數個字是同時包含兩個聲調符號的數字, 這下子我困惑了,正規的漢語拼音輸入法電腦表格檔案, 到底是每列的每個字只包含一個聲調符號的數字?還是說會有包含到兩個?
再來有沒有比較完整論述的資料,有列出所有的類似像是 lü = lv 或 lyu 的資料總整理, 並且分析比較哪一種等於是最多輸入法採用的,有哪些輸入法採用其中哪一種之類的, 這類資訊可以參考? 我目前將 CNS_pinyin_yyyymmdd.txt 整理出了一個內容如下,
a ā á ǎ à b c d e ē é ě è ê ế ề f g h i ī í ǐ ì j k l m n o ō ó ǒ ò p q r s t u ū ú ǔ ù ü ǖ ǘ ǚ ǜ v w x y z
這是CNS_pinyin_yyyymmdd.txt 漢語 欄位所有出現的字母, 現在正在傷腦筋該如何分析這些字母, 該怎麼樣將這些字母轉換成正規的漢語拼音輸入法表格檔案所會呈現的形式?
|
IanHo |
我嘗試看看描述我的問題,我有google找到,
泰瑞拼音輸入法(完整版)更新日期:2010.09.26 這個表格檔案,但這畢竟是前年的版本了,我想尋找從去年下半年到今天為止, 有無"最新版本"的漢語拼音輸入法表格檔案(資料筆數越大越好)? 然而我google不出所以然來,原本想說或許對岸的一些開放原始碼軟體打包檔裡頭找找看, 例如scim之類的,但也找不出所以然來, 在泰瑞拼音輸入法(完整版)資料中,用肉眼大致看過去, 代表漢語拼音聲調符號的數字鍵 1~5 每列就只有一個, 可是全字庫光碟提供的注音表格中,卻發現有數個字是同時包含兩個聲調符號的數字, 這下子我困惑了,正規的漢語拼音輸入法電腦表格檔案, 到底是每列的每個字只包含一個聲調符號的數字?還是說會有包含到兩個? |
必需先弄清楚,該表格的數字,是否有其他意義,或者該表格用多個數字,代表多個讀音? 如果並非上述情形,可能是全字庫的 bug,有心貢獻的話,請回報給全字庫
IanHo | 再來有沒有比較完整論述的資料,有列出所有的類似像是 lü = lv 或 lyu 的資料總整理, 並且分析比較哪一種等於是最多輸入法採用的,有哪些輸入法採用其中哪一種之類的, 這類資訊可以參考? |
裝來用用看不就知道了 XD
IanHo | 我目前將 CNS_pinyin_yyyymmdd.txt 整理出了一個內容如下,
a ā á ǎ à b c d e ē é ě è ê ế ề f g h i ī í ǐ ì j k l m n o ō ó ǒ ò p q r s t u ū ú ǔ ù ü ǖ ǘ ǚ ǜ v w x y z
這是CNS_pinyin_yyyymmdd.txt 漢語 欄位所有出現的字母, 現在正在傷腦筋該如何分析這些字母, 該怎麼樣將這些字母轉換成正規的漢語拼音輸入法表格檔案所會呈現的形式?
|
用「搜尋→取代」就可以了吧? 可以順便學到該拼音方案的所有讀音 之前整理第一篇分享的東西 就是邊做邊學 不過現在都忘光了 XD
|
coolcd |
必需先弄清楚,該表格的數字,是否有其他意義,或者該表格用多個數字,代表多個讀音? 如果並非上述情形,可能是全字庫的 bug,有心貢獻的話,請回報給全字庫
裝來用用看不就知道了 XD
用「搜尋→取代」就可以了吧? 可以順便學到該拼音方案的所有讀音 之前整理第一篇分享的東西 就是邊做邊學 不過現在都忘光了 XD
|
就是在「搜尋→取代」的過程發現了"我認為"的bug~導致進行下一步會有困難~ 但全字庫單位可能並不認為那是bug~
我寫email過去了~至於對方會不會及時回應並且判定那算是bug~真的天知道~只好等待了~
我還得在摸索看看到底該怎麼去描述全字庫那個有一列兩個聲調符號的注音表格檔案的狀況~真傷腦筋~
edited: 1
|
這篇純粹是情緒上的吐苦水~
當資料查詢的越多~越整理思緒~
越會覺得我念幼稚園時時期~當年那些所謂的大人~
所謂規範定義中文電腦資訊相關架構~並讓其定案通過的那些所謂的資訊部門長官~
真的很糟糕~為什麼會讓 big5 這麼爛的一個規範通過了~
當年會力推big5 這個規範並且蓋章讓其定案成為國家實質標準的那位電腦資訊部門長官~
就算已經老死過世了也要挖出來鞭屍一下~
big5 這個只有13000多字的中文資訊電腦規範~簡直比清朝時代包含有47000多字的紙本印刷的康熙字典還要糟糕~
真是點點點~~~
|
IanHo
| 8
找不到注音符號和漢語拼音(美式英文傳統鍵盤鍵位)對應字母的問題狀況 |
0
0 | 2012-04-09 | quote | | |
遇到一個新的狀況,我有一個需求是需要在漢語拼音模式下(美式英文qwerty傳統鍵盤鍵位),
能夠拼出 注音符號(包含聲調符號)的每一個單獨符號字元, 輸入於文字編輯器,然而嘗試各種拼法, 都無法於MacOSX10.5.8內建繁體拼音輸入法的選字窗內, 找出37個注音符號+四個聲調符號的可選字元, 另外嘗試於"尋找輸入碼"中查詢"拼音"欄位, 也沒有顯示任何結果, 當然 Unihan Variant Dictionary 和 拼音小字典, 也都查不出我要的資訊,真是傷腦筋.
再來嘗試 MsWindows環境 Win7家用進階版 + MS新注音輸入法10.1, 將 鍵盤對應 改成 漢語拼音, 參考了
http://hyperrate.com/thread.php?tid=22712 http://office.microsoft.com/zh-tw/help/HA010212186.aspx
兩著的資訊, 在 MS新注音輸入法10.1 實際去輸入字母並於選字視窗取得字元, 得到以下對應表,
ㄅ ㄆ ㄇ m1 ㄈ ㄉ ㄊ ㄋ n1 ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ zhi1 ㄔ chi1 ㄕ shi1 ㄖ ri1 ㄗ zi1 ㄘ ci1 ㄙ si1 ㄚ a1 ㄛ o1 ㄜ e1 ㄝ ㄞ ai1 ㄟ ei1 ㄠ ao1 ㄡ ou1 ㄢ an1 ㄣ en1 ㄤ ang1 ㄥ ㄦ er1 ㄧ yi1 ㄨ wu1 ㄩ yu1
由這個表中可知, 筆者找不到
ㄅ ㄆ ㄈ ㄉ ㄊ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄝ ㄥ
這幾個注音符號所對應的漢語拼音(美式英文傳統鍵盤鍵位字母), 到底是什麼?於是筆者就不知道該怎麼辦了.
後來筆者突發奇想,找了gcin的原始碼的內容檔案 \gcin-2.7.6.1\data\pinyin.cin, 而找出這樣的資訊,
ㄅ bo ㄆ po ㄈ fo ㄉ de ㄊ te ㄌ le ㄍ ge ㄎ ke ㄏ he ㄐ ji ㄑ qi ㄒ x ㄝ e ㄥ eng
可是這個檔案的內容有1~3碼不等, 筆者找不出看起來比較有"公信力"的資料來源, 再來驗證這些拼法,總覺得哪裡怪怪的,但又說不上來(現階段累積經驗不夠), 筆者"感覺上"認為應該要兩個或以上的鍵位來組成一個注音符號, 但是又找不到可以驗證的資料,有在對岸找到一個, GF3006-2001 汉语拼音方案的通用键盘表示规范 http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s230/201001/75696.html 但沒提到注音的部分.
現在就是卡在這裡,筆者想要找偏向繁體中文思維的漢語拼音的美式英文傳統鍵盤鍵位字母 的對照資料(有點繞口,抱歉筆者不太會精準描述), 上哪裡去找阿? 中華民國教育部網站提供的資料,都是閱讀和印刷為主的字母符號(單一字元包含聲調符號的那種), 唉~傷腦筋~
|
這個問題或許有點蠢~但我真的不知道該從何查起~
只好嘗試問問看~
在
GF3006-2001 汉语拼音方案的通用键盘表示规范 http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s230/201001/75696.html
其中有一段提到
4.3.4 韻母ê在通用鍵盤上用E加A組合鍵位替代表示.
這句到底是指 EA 還是指 AE 啊?
我突然發現我的國文閱讀好像有問題了!居然無法理解這句!?
然後google又查不出所以然來!找不到相關佐證資料來確認到底是指 EA 還是指 AE ?
|
就是既然同樣都是漢語拼音學習閱讀發音用的字母,
那麼 yū 這個y加上u上面有一條線的組合, 和單一的u上方有兩點的組合ü , 兩著到底有什麼不一樣? 我看了一堆文件看了我頭昏腦脹, 還是分不出來為什麼要分這兩著? 這兩著到底有什麼不一樣? 還是說都一樣,那麼又為什麼要分這兩著?
|
IanHo |
就是既然同樣都是漢語拼音學習閱讀發音用的字母,
那麼 yū 這個y加上u上面有一條線的組合, 和單一的u上方有兩點的組合ü , 兩著到底有什麼不一樣? 我看了一堆文件看了我頭昏腦脹, 還是分不出來為什麼要分這兩著? 這兩著到底有什麼不一樣? 還是說都一樣,那麼又為什麼要分這兩著?
|
yū 上面的 bar 是聲調符號,不打聲調是 yu,但其實 yu 的 u 是 ü,只是 ü 前面沒有聲母或者聲母是 j、q、x 時,上面兩個點省略,寫成 u。
為什麼漢語拼音的規則這麼複雜?我也不知。
|
coolcd |
yū 上面的 bar 是聲調符號,不打聲調是 yu,但其實 yu 的 u 是 ü,只是 ü 前面沒有聲母或者聲母是 j、q、x 時,上面兩個點省略,寫成 u。
為什麼漢語拼音的規則這麼複雜?我也不知。
|
我先框起來再慢慢消化~
|
http://www.edu.tw/files/site_content/M0001/pinyinshouce.pdf
文中的第六頁和第七頁可以看一下. 這也是漢語拚音比較難記的地方.
|
參考了coolcd網友的 拼音.ods 和 全字庫的資料表格, 一陣土法煉鋼的拼湊剪貼核對之後, 終於用 libreoffice calc 完成一個1550列的對照表, 包含了注音符號 , 漢語拼音閱讀發音用的字母組合, 美式英文鍵盤鍵位對照,這三個欄位, 完成到這一步之後,接下來發現遇到瓶頸了,要如何將這1550列的對照資料整合進入, 筆者先前所製作的 全字庫注音輸入法表格檔, 讓表格檔案內的注音欄位替換成 漢語拼音美式英文鍵盤鍵位的資料, 畢竟 全字庫注音輸入法表格檔 包含了11萬列, 不可能像之前那樣一筆一筆的剪貼,現在傷腦筋了,不曉得有沒有"比較快捷"的進階操作方式? (寫程式的方式除外,因為我不會寫程式. )
|
筆者完成全字庫注音輸入法表格檔2012年版本之後,
接下來想要挑戰看看從來沒學過的全字庫漢語拼音輸入法表格檔, 參考了一拖拉庫資料之後,因為筆者不會寫程式的關係, 只好使用土法煉鋼的方式,將注音和漢語拼音的一千五百多筆比對照資料, 一筆一筆的對照並替換到十一萬筆的注音輸入法表格檔內, 再對照了三萬筆之後,突然注意到一個之前對照都沒發現的狀況, 狀況範例,
4E50 ㄌㄜˋ 4E50 ㄩㄝˋ 4E50 ㄌㄜˋ
也就是說,政府提供的對照表格中,unicode碼位和注音符號會有重複的狀況發生, 筆者再嘗試查詢 cns11643 網站的線上查詢機制,也發現有重複了, 連拼音都有重複, http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=e&code=4c55 因此筆者推測,之前製作的 全字庫注音輸入法表格檔 內容是會有部分重複了, 真的好家在,筆者有想到在文件中擺上了免責聲明的文字片段, 也好家在筆者把這個檔案定位為免費或公益軟體. 現在遇到狀況了,有沒有一套方法,可以在不會寫程式的前提下, "加速驗證"類似上方範例這種重複的情境,讓使用者可以更快的挑出並刪去重複的列?
|
|
網頁中第二個步驟開始我就 看沒有 了~
再來我是要在11萬列的資料中挑出重複的部分~
真是傷腦筋阿~
其實最源頭的方式就是期望提供資料的全字庫單位修正相關問題狀況~
email寫了也寄了~現在就等回應了~
除非對方沒回應~我再想辦法自行解決~
傷腦筋阿~
為什麼全字庫單位提供的資料狀況這麼多~
一下是表格裏頭~
把漢字的"一"混入到注音符號的"ㄧ"~
一下又是字型裡頭的字沒有擺在九宮格的正中間~
諸如此外狀況一大堆~
下次有會出現什麼狀況呢!?
(為什麼在使用win7+srware iron+微軟新注音v10.1 在 hyperrate.com 輸入的注音符號"ㄧ"會變成豎的而不是橫的~以前重沒遇過~這下我又困惑了!?)
|
|
提供一個或許可行的組裝方向,
下載 CnsPhonetic2012-03.cin (CnsPhonetic2012-03.zip) http://www.openfoundry.org/of/projects/1603/download
解壓縮後用進階純文字編輯器開啟,並截頭去尾, 只留下 %chardef begin 和 %chardef end 之間的內容, 這樣的內容應該可以由 libreoffice calc開啟, 並且以兩個欄位呈現(libreoffice calc 應該會跳出一個精靈或格式轉換對話視窗), 以兩個欄位呈現之後,就目前所知重複的有,
碼位 \u4E50 漢字 乐
注音 ㄌㄜˋ
鍵位 xk4
這組注音和漢字對照表,重複了兩次,
筆者自行推論可能不只這一組,如果筆者的推論是正確的,那這下可麻煩了, 筆者"無法"在11萬列的資料中,有效且快速的找出到底還有哪些注音和漢字對照表重複了, (因為筆者不會寫程式,所以只能依賴較高階的圖形介面處理方案).
ps. 一個工作天過去了~全字庫單位沒有回信~有凶多吉少的感覺~
|
Hi IanHo,
不會寫程式,又需要在 OOo/LibO 的 Calc 中處理重覆的資料很簡單。先把原來 11 萬行的檔案複製一份用來操作,再將這份用來操作的檔案打開,利用「資料」> 「排序」然後再選擇你要篩選的目標欄位就可以了。跑完「排序」,你就會看到每個重覆的資料被「排在一起」囉!
祝 安平
Peter. w
|
可以用vi(或vim),用vi那個檔打開之後輸入:
:sort u
就可以看到效果,不過順序會被重排,這是比較麻煩的地方,
下面這個參考連結內容我沒試過,也許可以試試看,說不定資料不會重新排序
http://www.ehow.com/how_5073108_remove-duplicate-lines-vi.html
|
Thanks, 又學到一招
不過 IanHo 不愛打指令,應該是不會去用 vi/vim 的 XD
|
如果不在乎被重排,那用 sort uniq 也可以辦到
|
guest | Hi IanHo, 不會寫程式,又需要在 OOo/LibO 的 Calc 中處理重覆的資料很簡單。先把原來 11 萬行的檔案複製一份用來操作,再將這份用來操作的檔案打開,利用「資料」> 「排序」然後再選擇你要篩選的目標欄位就可以了。跑完「排序」,你就會看到每個重覆的資料被「排在一起」囉! 祝 安平 Peter. w |
可是這樣的結果似乎還是必須把11萬列的內容"全部"都用肉眼瀏覽一遍~才能一個一個找出重複的部分~
或許之前沒有描述得更詳細些~我期待的功能是軟體介面能"高亮""反白"或著另外有訊息室窗之類的標示出重複的儲存格.
|
IanHo |
提供一個或許可行的組裝方向,
下載 CnsPhonetic2012-03.cin (CnsPhonetic2012-03.zip) http://www.openfoundry.org/of/projects/1603/download
解壓縮後用進階純文字編輯器開啟,並截頭去尾, 只留下 %chardef begin 和 %chardef end 之間的內容,
|
我處理了一下這個檔案,以 sqliteman 生成不具有重覆內容的「列」之後的結果,請見附件檔(以 tab 分隔的 utf8 編碼的純文字檔)。
|
Chen-Pan Liao |
我處理了一下這個檔案,以 sqliteman 生成不具有重覆內容的「列」之後的結果,請見附件檔(以 tab 分隔的 utf8 編碼的純文字檔)。
|
下載查詢之後,可惜還是"無法"藉由這個檔案,查詢得知重複了的漢字倒底有哪些個?這是我需要知道的資訊,
另外我會期望,不知是否會有全圖形介面操作的技巧和方法,來得知重複了的漢字有哪些個(由軟體挑出而非肉眼逐一比對)?
初估相減之下,表格中似乎是有303個漢字重複了,我想知道我製作的表格中,重複的是哪303個漢字?
|
現在討論的東西似乎與主題沒直接相關了,如想討論如何用圖形介面軟體消除重覆行,請開新討論串,如想討論如何將全字庫轉換成漢語拼音,也請開新討論串,感謝。
edited: 1
|
現在回覆會不會太晚? 在查閱 拼音.ods 的 國語注音符號第二式 欄位 的時候,發現以下格子內容好像怪怪的? 算不算是有bug ? --- ㄉㄨㄥ dōng ㄉㄨㄥˇ dǒng ㄉㄨㄥˋ dòng ㄍㄨㄣˇ gǔn ㄍㄨㄣˋ gùn ㄑ˙ ? ㄕㄨㄞˇ shuài ---
|