Posted on 2009-07-29 14:43
summeryhrb 閱讀(1429)
評論(2) 編輯 收藏
《根據批量URL生成有書簽的pdf文檔的解決方案》一文作為一個完整的解決方案,主要有四個要點
(1)詳細描述了解決方案的思路,
(2)提出了一種描述URL的xml文件,稱之為h2p文件
(3)根據h2p文件生成pdf文檔的工具稱為h2p-tool,同時h2p-tool還能對h2p文件進行編輯,從而制作自己的pdf電子書。
(4)h2p文件是該解決方案的資源文件,收集url是件費時費力的事情,所以該解決方案還提供了下載h2p文件的鏈接
H2p是我自己定義的一種xml格式,我私下里是希望這種格式能夠被大家接受,所以我定義了dtd,并且開發了一個編輯h2p文件的工具h2p-tool,而且在javaei網站上提供了大量的h2p文件作為資源下載。有了h2p,制作自己的pdf電子書將變得很容易。
如果想讓h2p為大家所接受,h2p必須不斷的發展。因為現在h2p應用還是很簡單很原始。主要表現在,生成的pdf是原html的完全再現,這是他的優點也是他的弱點。
說是優點,是因為pdf的呈現效果和在瀏覽器里風格一樣。
說是缺點,是因為既然生成了pdf,我們希望pdf里主要突出文章的主題內容,而不希望有原來網頁里的那么多的圖片和廣告,而且還希望原來是分頁的內容自動合并到一個pdf里。
所以,就此缺點,我提出兩個可能的展望。
(1)制定一種規范,該規范要求網站為每篇博客提供一個為h2p專用的鏈接(姑且叫h2p鏈接吧),根據這個鏈接打開的博客文章是沒有廣告的,那么h2p文件的連接采用這種h2p鏈接,生成的pdf就沒有上述的缺點了。這個想法可能與網站的盈利相悖,因為如果提供h2p鏈接,很多人將會之點擊h2p鏈接,這樣,就避開了網站投放的廣告。
(2)第二種可能的展望就是,各網站提供一個webservice的編程接口,通過該編程接口,用程序訪問每篇博客文章,這樣得到的文章就是沒有廣告的干凈的文章。
這兩種展望的目的主要是為了生成干凈的pdf文檔,顯然,要實現這兩個展望是很困難的,除非大家都很接受h2p這個思路,并且對這種應用很迫切,才會有人來大力推動。想想rss的普及,那也是一波三折,最終還是因為其便捷的使用模式而被大家所接受。
私下里是希望大家能接受并喜歡h2p的。