cht電腦資訊文書排版
adm Find login register

中文 pdf metadata

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
1subject: 中文 pdf metadataPromote 2 Bookmark 22008-07-29quote  

最近有人在問如何看 pdf 的中文 metadata(例如 PDF 的作者、標題、關鍵字、bookmarks 等資訊),最簡單的方式就是使用 Adobe acroread,File => Document Properities 就會顯示這些資訊。

xpdf 所附的 pdfinfo 也是可以,但他不支援中文(正確的說是 Unicode)。其他 kpdfevince 都可以支援 Unicode PDF metadata。

命令列的話,可以試試以下兩種方式(需 pdftkw3m → 編譯時要加 m17n 選項,或 recode):

pdftk your.pdf dump_data | recode h4..u8

pdftk your.pdf dump_data | w3m -T text/html -dump 

修改的話就沒有比較合適的工具,LaTeX 文件的話,可以編輯他的原始文稿再生成 pdf。沒有中文的話,pdftk 也可以修改。perl 的話,有一些模組也可以做這些修改,但可能要自行去寫 scrpit。

還有嗎?


edited: 2
coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
2subject: Promote 2 Bookmark 22008-07-29quote  

我知道 exiftool 可以

這工具實在蠻神的,雖然叫 exiftool 好像是圖檔工具

卻可以看其他許多文件、音樂、影片檔的資訊

它可讀的 tag 列在 PDF Tags

但支不支援 unicode 我就不知了

Debian 中這個工具是在 libimage-exiftool-perl 這個 package 內

edited: 1
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
3subject: Promote 0 Bookmark 02008-07-29quote  
coolcd

我知道 exiftool 可以

這工具實在蠻神的,雖然叫 exiftool 好像是圖檔工具

卻可以看其他許多文件、音樂、影片檔的資訊

它可讀的 tag 列在 PDF Tags

但支不支援 unicode 我就不知了

Debian 中這個工具是在 libimage-exiftool-perl 這個 package 內

Thanks.

這個工具非常不錯,支援 Unicode pdf metatdata,使用上也滿方便的,推一個!例如:

exiftool -author="中文測試' your.pdf

這個 pdf 的作者欄就會被修改成「中文測試」。


winlin

joined: 2007-09-25
posted: 1859
promoted: 111
bookmarked: 33
4subject: Promote 0 Bookmark 02008-08-02quote  
LGJ

 

exiftool -author="中文測試' your.pdf

這個 pdf 的作者欄就會被修改成「中文測試」。

LGJ兄,我試了一下,還是一樣是亂碼...

-------------------------------------------------------------------
好用的gcin連結:

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
5subject: Promote 0 Bookmark 02008-08-02quote  
要在 UTF-8 環境更改。


winlin

joined: 2007-09-25
posted: 1859
promoted: 111
bookmarked: 33
6subject: Promote 0 Bookmark 02008-08-02quote  

LGJ
要在 UTF-8 環境更改。

應該是utf8環境沒錯~

export LANG=zh_TW.UTF-8
export LC_ALL=zh_TW.UTF-8
export KDE_LANG=zh_TW.UTF-8

 env結果節錄如下:

 ~$env
LC_ALL=zh_TW.UTF-8
LANG=zh_TW.UTF-8
LANGUAGE=zh_TW:zh:en_US:en
KDE_LANG=zh_TW.UTF-8

-------------------------------------------------------------------
好用的gcin連結:

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
7subject: Promote 0 Bookmark 02008-08-02quote  

那……,請提供改不出來的 pdf 檔,我改給你看。:)


edited: 1
winlin

joined: 2007-09-25
posted: 1859
promoted: 111
bookmarked: 33
8subject: Promote 0 Bookmark 02008-08-02quote  

轉不成功的,如附件~感謝~
我懷疑是bullzip的編碼問題...

-------------------------------------------------------------------
好用的gcin連結:

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
9subject: Promote 0 Bookmark 02008-08-03quote  

1. 原 pdf 的 metadata text strings 編碼不合 PDF spec(需要 ascii 或 UTF-16be)。

2. 一次改不了,請改第二次。

請參考附檔 bullzip_output2.pdf。


edited: 2
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
10subject: Promote 0 Bookmark 02008-08-03quote  

我試過了 OO.o/scribus,都可以產生正確的 pdf 中文 metadata,如果不想用 LaTeX,為什麼不用這些工具呢?至少這些工具產生的 pdf 較值得信賴。


winlin

joined: 2007-09-25
posted: 1859
promoted: 111
bookmarked: 33
11subject: Promote 0 Bookmark 02008-08-04quote  
LGJ

我試過了 OO.o/scribus,都可以產生正確的 pdf 中文 metadata,如果不想用 LaTeX,為什麼不用這些工具呢?至少這些工具產生的 pdf 較值得信賴。

openoffice.org轉出的pdf的確可以正確生出中文的metadata,我之前也試過
但是openoffice.org writer開啟doc檔還是會有格式掉的問題
所以儘管好用但是光卡在這點,就讓openoffice.org無用武之地了 :(

-------------------------------------------------------------------
好用的gcin連結:

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
12subject: Promote 0 Bookmark 02008-08-04quote  

東方人把頭髮再怎麼染成金黃色,他不會變成西洋人,對吧?:p

MS DOC 根本就不是什麼標準,格式又不開放,無法 100% 相容,我個人認為這是理所當然,天經地義之事。


coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
13subject: Promote 0 Bookmark 02008-08-04quote  
LGJ

東方人把頭髮再怎麼染成金黃色,他不會變成西洋人,對吧?:p

MS DOC 根本就不是什麼標準,格式又不開放,無法 100% 相容,我個人認為這是理所當然,天經地義之事。

規格書是可以取得啦

我之前有整理過心得

http://forum.moztw.org/viewtopic.php?p=122348#122348

doc binary 現在有 BSD-like 授權的 b2xtranslator project 可以轉成號稱是開放格式的 ooxml

doc -> ooxml -> ??

相容性到底如何,我還沒實測過

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
14subject: Promote 0 Bookmark 02008-08-04quote  
coolcd
規格書是可以取得啦

我之前有整理過心得

http://forum.moztw.org/viewtopic.php?p=122348#122348

在自由軟體社群的所謂「開放格式」,指的是「自由開放格式」,也就是說他不僅僅規格是開放的,其中所牽涉到的專利的部份也是開放給大家自由使用(例如 PDF 有關專利的部份,Adobe 公司有公開的合法使用授權)。

但微軟體 Office 規格,在很早以前就拿得到(沒記錯的話在 win95 以前就拿得到),問題出在其中的專利授權的問題。 而且,他的規格極其複雜,前後版本又可能不相容。

doc binary 現在有 BSD-like 授權的 b2xtranslator project 可以轉成號稱是開放格式的 ooxml

doc -> ooxml -> ??

相容性到底如何,我還沒實測過

這個 project 我還沒詳細去看,不過,最基本的,他的授權只能針對轉換程式本身,而沒有權利對 MS DOC 或 OOXML 所涉及到的專利做授權。

微軟就是一直有這種煙幕式的動作(好像是開放,其實哪天他心血來潮,還是可以在法院翻案,因為他並沒有公開授權)。


edited: 1
guest
15subject: Promote 0 Bookmark 02008-11-06quote  

我想要修改pdf內容的標題,

什麼語法都不會

請問有什麼工具可以快速又簡單的修改內容的標題列呢?

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
16subject: Promote 0 Bookmark 02008-11-06quote  

1. 使用 1 樓或 2 樓的工具。語法是可以學的。或用 10 樓的 GUI 工具。

2. 購買 Adobe Acrobat 或其他類似的商業產品。 

不想花錢,也不想花時間學簡單的指令(嚴格而言,不算語法),那我實在是想不出其他的法子了。
 


edited: 2

cht電腦資訊文書排版
adm Find login register
views:54495