我的BT下載實驗室
姚明的NBA
BT下載
小說520
常用鏈接
我的隨筆
我的評論
我的參與
最新評論
留言簿
(3)
給我留言
查看公開留言
查看私人留言
隨筆檔案
(28)
2008年9月 (1)
2008年8月 (2)
2008年7月 (6)
2008年6月 (4)
2008年5月 (7)
2008年4月 (1)
2008年1月 (4)
2006年6月 (3)
文章檔案
(1)
2008年1月 (1)
我最愛的網站
BT
bt精靈
bt精靈,比特精靈
NBA中文網
NBA中文網|NBA直播|NBA視頻|NBA2008|科比|NBA火箭隊|NBA湖人隊|NBA球星|NBA賽程
NBA中文網
這個網站是我自己做的.呵呵.
北京歡迎你
北京歡迎你,是北京歡迎你這首歌
小說520網
小說,小說520網
最新電影網
最新電影網,最新電影網,最新電影網
搜索
最新評論
1.?re: 通過JOX輕松實現JavaBeans與XML的相互轉換 [未登錄]
542728579@qq.com
--熊貓
2.?re: 如何把Hibernate2.1升級到Hibernate3.0? [未登錄]
我了你個去哦!這個...
--cloud
3.?re: 用freemarker生成靜態頁面
13366630368@163.com
--王健
4.?re: 用freemarker生成靜態頁面
mahui1980a@163.com
謝謝??!
--馬輝
5.?re: 用freemarker生成靜態頁面
quickbomber@gmail.com
3Q~
--Hello
閱讀排行榜
1.?如何分析網頁-----使用HtmlParser(1)(4870)
2.?HttpClient的使用(4400)
3.?用freemarker生成靜態頁面(3997)
4.?修正版 瘋狂代碼 寫給WEB2.0的站長(3993)
5.?Web cache 說明[翻譯](3681)
評論排行榜
1.?用freemarker生成靜態頁面(48)
2.?修正版 瘋狂代碼 寫給WEB2.0的站長(12)
3.?測試網站性能的30款免費在線工具(11)
4.?通過JOX輕松實現JavaBeans與XML的相互轉換 (10)
5.?轉帖:360可以為了錢淪為流氓軟件,程序員的我不行!(10)
Powered by:
博客園
模板提供:
滬江博客
BlogJava
|
首頁
|
發新隨筆
|
發新文章
|
聯系
|
聚合
|
管理
通過htmlParser抓取百度相關內容
最近這兩天我做了個
最新電影網
的視頻網站,主要是從土豆抓取來的.所以
內容頁
就是框架,不便于搜索的抓取。所以我就想加些相關內容,像這樣的
內容
由于我就是通過百度搜索關鍵字來填充內容。下面就是我通過htmlParser抓取的代碼。
public
class
BaiduResultAction
extends
BaseAction
{
public
static
final
Logger logger
=
Logger
.getLogger(BaiduResultAction.
class
);
/** */
/**
* 組裝新聞
*
*
@param
url
*
@return
*/
public
String compNews(String url)
{
String returnContent
=
null
;
try
{
ParserModel parserModel
=
new
ParserModel();
//
table 的抓取標簽
String content
=
"
border=\
"
0
\
"
cellpadding=\
"
0
\
"
cellspacing=\
"
0
\
""
;
parserModel.setContent(content);
NodeClassNameFilter contentNodeClassNameFilter
=
new
NodeClassNameFilter(
TableTag.
class
, parserModel);
NodeList contentList
=
getAllNodeList(url,
contentNodeClassNameFilter);
//
對table的處理 只取第一個table中的一項記錄
//
如果全部抓取內容,則要去掉最后一個break;
for
(
int
i
=
1
; i
<
contentList.size(); i
++
)
{
if
(contentList.elementAt(i)
instanceof
TableTag)
{
TableTag tableContent
=
(TableTag) contentList
.elementAt(i);
int
rowCount
=
tableContent.getRowCount();
TableRow[] arrRows
=
tableContent.getRows();
for
(
int
j
=
0
; j
<
arrRows.length; j
++
)
{
TableRow tableRow
=
arrRows[j];
TableColumn[] arrColumm
=
tableRow.getColumns();
for
(
int
k
=
0
; k
<
arrColumm.length; k
++
)
{
String columContent
=
arrColumm[k].toHtml();
if
(columContent
!=
null
)
{
String[] split
=
columContent.split(
"
<br>
"
);
if
(split.length
>
2
)
returnContent
=
split[
1
].substring(
0
,split[
1
].length()
-
4
);
}
break
;
}
}
}
break
;
}
}
catch
(IllegalArgumentException e)
{
//
TODO Auto-generated catch block
e.printStackTrace();
return
null
;
}
catch
(Exception e)
{
//
TODO Auto-generated catch block
e.printStackTrace();
}
return
returnContent;
}
public
static
void
main(String[] args)
throws
Exception
{
BaiduResultAction action
=
new
BaiduResultAction();
//
抓取sohu的內容.通過百度
String url
=
"
http://www.baidu.com/s?wd=%BA%DA%BF%CD%B5%DB%B9%FAII+11%28112%29++site%3Asohu.com
"
;
//
String url = "
http://bbs.hoopchina.com/htm_data/96/0712/274754.html
";
//
List<String> hrefList = sinaAction.parseLink(url, getIndexFilter());
/**/
/*
logger.debug(sinaAction.compNews(url));
*/
action.compNews(url);
}
}
效果如下:http://www.tondou.cn/c/2008-05-12/314146
發表于 2008-05-12 22:00
BT下載與小說520
閱讀(1969)
評論(6)
編輯
收藏
評論
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
good....
ci
評論于 2008-05-12 22:15
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
有沒有源碼參考一下呀?ParserModel,NodeClassNameFilter這兩個類都是自定義的嗎?我用的類包是這里面的:htmlparser1_6_20060610
晚秋
評論于 2008-05-13 15:57
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
@晚秋
是自定義的.看你網名好像是女性哦.
王能
評論于 2008-05-13 16:17
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
呵呵,有沒有源碼呀?xiaoqiu369@hotmail.com.發一份可以嗎?
晚秋
評論于 2008-05-13 16:54
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
我貼的就是原代碼啊.
王能
評論于 2008-05-13 17:17
#
re: 通過htmlParser抓取百度相關內容
回復
更多評論
有沒有源碼參考一下呀?ParserModel,NodeClassNameFilter這兩個類都是自定義的嗎?
liupishan@sina.com
評論于 2009-03-17 20:07
新用戶注冊
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
網站導航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
主站蜘蛛池模板:
亚洲免费黄色网址
|
久久亚洲AV成人无码国产
|
亚洲欧美第一成人网站7777
|
亚洲精品无码99在线观看
|
亚洲男人av香蕉爽爽爽爽
|
亚洲日本天堂在线
|
国产男女猛烈无遮挡免费网站
|
亚洲成av人在线视
|
亚欧免费无码aⅴ在线观看
|
久久精品国产精品亚洲艾草网
|
国产精品亚洲综合久久
|
成人免费视频小说
|
久久久久亚洲精品影视
|
久久免费区一区二区三波多野
|
亚洲AV永久无码精品一区二区国产
|
亚洲一区免费在线观看
|
免费黄色大片网站
|
一级特黄a免费大片
|
亚洲日本一区二区三区在线
|
人妻无码久久一区二区三区免费
|
亚洲精品NV久久久久久久久久
|
一级**爱片免费视频
|
亚洲成AV人在线观看天堂无码
|
99久久久精品免费观看国产
|
亚洲日韩一区精品射精
|
亚洲日本中文字幕天堂网
|
免费视频成人手机在线观看网址
|
免费人成视频x8x8入口
|
国产一二三四区乱码免费
|
亚洲精品国产成人
|
91麻豆国产免费观看
|
亚洲色中文字幕在线播放
|
蜜桃视频在线观看免费网址入口
|
亚洲成a人片在线观
|
免费无码又爽又刺激高潮视频
|
亚洲国产美女福利直播秀一区二区
|
好男人www免费高清视频在线
|
日本精品久久久久久久久免费
|
日本免费人成黄页在线观看视频
|
久久久久久毛片免费看
|
亚洲国产日韩在线成人蜜芽
|