首先得下載xpdf-3.00pl3-win32.zip和xpdf-chinese-simplified.tar.gz二個包 配置: 1。xpdf-3.00pl3-win32.zip寫壓后改名為xpdf 2。修改xpdfrc文件 (1)在文件最下面加入
(2)另外,配置文件中原先沒有加上一個“textPageBreaks”控制。為了避免這個分頁符號,我們需要在xpdfrc文件“text output control”下面加上這么一段話:
# If set to "yes", text extraction will insert page
# breaks (form feed characters) between pages. This
# defaults to "yes".
textPageBreaks no
設置textPageBreaks為no的意思是:在PDF文檔的兩頁之間不加入分頁符號。
之所以這樣,是因為這個符號有時候會引起SAX解析XML上的困難。
讀PDF文件
Copyright © angel