<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    云自無心水自閑

    天平山上白云泉,云自無心水自閑。何必奔沖山下去,更添波浪向人間!
    posts - 288, comments - 524, trackbacks - 0, articles - 6
      BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

    從pdf文件中提取文本

    Posted on 2016-11-28 11:03 云自無心水自閑 閱讀(385) 評論(0)  編輯  收藏
    有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。

    我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
    參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

    使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
    我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
    這樣排序完畢后,就能比較好的解決文本格式問題。


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 日本二区免费一片黄2019| 99久久精品国产免费| 成人毛片视频免费网站观看| 久久av无码专区亚洲av桃花岛| 免费观看男人吊女人视频| 亚洲精品无码av人在线观看| 9久热这里只有精品免费| 亚洲精品午夜无码专区| 人妻免费一区二区三区最新| 久久精品亚洲视频| 亚洲成AV人片在线观看WWW| 丝袜捆绑调教视频免费区| 免费视频淫片aa毛片| 亚洲男人的天堂网站| 日本不卡高清中文字幕免费| 又大又硬又粗又黄的视频免费看| 亚洲人成网站18禁止一区| a级精品九九九大片免费看| 99视频在线精品免费观看6| 亚洲高清乱码午夜电影网| 亚洲精品无码激情AV| 免费91麻豆精品国产自产在线观看 | 精品无码国产污污污免费网站| 亚洲春色在线观看| 日韩一区二区在线免费观看| jizz18免费视频| 4444亚洲国产成人精品| 永久免费av无码网站yy| 亚洲大尺码专区影院| 四只虎免费永久观看| 成全动漫视频在线观看免费高清版下载| 久久久久亚洲AV无码专区首JN| 蜜臀91精品国产免费观看| 五月天国产成人AV免费观看| 亚洲酒色1314狠狠做| 免费乱码中文字幕网站| 亚洲爆乳AAA无码专区| 亚洲成a人片77777kkkk| 成人一a毛片免费视频| 在线成人精品国产区免费| 国产AV旡码专区亚洲AV苍井空 |