亚洲最大AV网站在线观看,亚洲成AV人片在,亚洲人成影院午夜网站

根據批量URL生成有書簽的PDF文檔的解決方案

Posted on 2009-07-24 17:08 summeryhrb 閱讀(1594) 評論(3) 編輯收藏

一、緣起

看到一篇好文章、一篇精彩的博文，我們最早期的做法有兩種，添加到收藏夾，或者另存為，后來出現了新的方式，轉貼到自己的博客里、或者收藏到一些收藏網站上（比如360doc）。近來又出現了生成PDF文檔的方式，比如某些網站，你提交一個url，就為你生成對應的pdf，javaeye的電子書制作也很不錯，甚至可以預測一下，瀏覽器的“另存為”窗口里有可能會有一個*.pdf選項。因為pdf實在是太好了，小巧而有表現力豐富。盡管如此，如果有多篇好的文章呢，比如一個非常優秀的連載（比如牛人寫的教程、開發心得），我們能做的也就是添加到收藏夾或添加到自己博客的鏈接里頭。想當年，沒錢買書的時候，就在網上找一些教程來看，做得比較好的會有一個頁面列出該連載的所有連接，這種情況我通常用迅雷以下載全部鏈接的方式（再去掉不相關的鏈接）批量下載下來，做的簡單的只提供一個類似于上一篇下一篇的鏈接，這種情形到現在還是這樣。（易用性啊，這個問題可大可小，往大的說，關系到應用模式和商業模式，往小的說也許就是個美觀和方便。Javaei提供的快捷閱讀采取左邊樹形菜單展示目錄，右邊展示內容的形式，這種形式在界面的設計上屢試不爽。）

本文就是要闡述一種根據批量URL生成有書簽的PDF文檔的解決方案，這個批量URL就是一些好的文章的URL，根據這些URL生成一個合并的PDF文檔，并且要有書簽（也就是左邊的樹形菜單），而且必須要有書簽。《java與模式》這本書想必很多人都看過，老厚的一本書啊，我沒錢買，看的是一個下載的pdf，這個pdf給我的印象太壞了，沒有書簽，要找個東西只能拉滾動條，盡管如此，我還是看完了，書寫的不錯，制作pdf的那個人功過相抵。

二、思路

目的是要根據批量URL生成有書簽的PDF文檔，實現這個目的分兩步走：先解決根據一個URL生成一個PDF文檔，再解決多個PDF合并并生成書簽的問題。

（1）根據一個URL生成一個PDF文檔

根據一個URL生成一個PDF文檔看似很容易，因為我們有iText,pdfbox這些開源框架，實則不簡單，因為要保證生成的pdf文檔打開后的效果要和瀏覽器里的要一樣，這無異于做一個瀏覽器，目前的瀏覽器尚且存在兼容的問題，所以自己寫一個根據html生成pdf的想法很難實現。那么另一個思路就是利用一些網站來實現這個目的，經過嘗試，有些網站是需要提供URL和email，人家把生成好的pdf發到你郵箱，這種形式無法通過代碼來訪問，也就無法批量處理；有些網站只需提交url，就把生成的pdf響應給客戶端，這種形式可以通過程序來批量處理，但是生成的pdf與瀏覽器里的效果相差太遠；還有一些網站根本就不支持中文。通過探索，終于找到一個網站提供的C#做的dll可以達到這個要求，利用這個dll，寫個簡單的C#程序就可以批量的生成pdf了，而且效果相當完美，美中不足的是生成的pdf里有人家的水印。

（2）多個PDF合并并生成書簽

多個PDF合并并生成書簽可以輕松的用iText搞定，合并是有一定的順序的，并且書簽是樹形結構的，因此合并的順序，書簽的層次結構是需要事先確定好的。所以對批量的URL要進行一定的描述，那么很自然的選擇xml。

三、實現

我現在越來越覺得，只要不是基礎設施的東西，技術上都很簡單，關鍵是你有沒有想法。這個實現先從xml描述開始。

Xml描述分兩步，先簡單的描述一批URL（這里叫做href.h2p.xml），再來描述層次關系（這里叫做outline.h2p.xml）。h2p就是html to pdf的意思

先看href.h2p.xml

<href-info>

</href>

</href>

</href>

</href>

</href>

</href-info>

這個xml很簡單，之所以這樣描述，是因為URL通常會有&而這個符號不能出現在xml里，而且作為屬性的值，還不能用<![CDATA[]]>，所以就作為一個節點了。

根據這個xml生成的每個pdf文件的名字取id的值，后綴為pdf。

outline.h2p.xml內容如下：

</chapter>

</chapter>

</book>

這個xml描述了每個pdf合并的順序，href的值和上一個xml的id值對應，chapter標簽嵌套的層次就是書簽的層次，name的值就是書簽的名稱。iText根據這個xml把每個pdf合并成一個pdf，并生成書簽。

我把這兩個xml文件稱為h2p文件。

四、h2p文件

行文到這里，這個解決方案就算結束了，俗話說，巧婦難為無米之炊，首先我們要有上面說的這兩個xml文件，這兩個xml文件如果靠手工編輯的話，少量的URL還行，如果多了就不方便了。所以應該有一個工具來編輯h2p文件。完整的解決方案請點擊這里。

Feedback

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復 更多評論

2009-07-25 11:55 by ducklyl

兄弟給你一文章，
是用軟件轉HTML TO PDF
http://www.tkk7.com/ducklyl/archive/2009/07/09/286158.html

還有就是生成完PDF，合并的問題，
用開源的軟件
http://www.tkk7.com/ducklyl/archive/2009/07/09/286160.html

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復 更多評論

2009-07-25 16:21 by 樂蜂網

不錯啊！

# re: 根據批量URL生成有書簽的PDF文檔的解決方案[未登錄] 回復 更多評論

2009-07-25 18:52 by summeryhrb

@ducklyl
謝謝你的推薦，不過你的解決辦法跟我是不同的思路，在應用上我這個有更好的持續效應，那就是h2p文件將成為一種資源。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

summeryhrb

隨筆檔案

最新隨筆

最新評論

根據批量URL生成有書簽的PDF文檔的解決方案

Feedback

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復 更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復 更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案[未登錄] 回復 更多評論

常用鏈接

評論排行榜

閱讀排行榜

summeryhrb

隨筆檔案

最新隨筆

最新評論

根據批量URL生成有書簽的PDF文檔的解決方案

Feedback

# re: 根據批量URL生成有書簽的PDF文檔的解決方案 回復 更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案 回復 更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案[未登錄] 回復 更多評論

常用鏈接

評論排行榜

閱讀排行榜

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案回復更多評論

# re: 根據批量URL生成有書簽的PDF文檔的解決方案[未登錄] 回復更多評論