地獄男爵之博客無限
BlogJava
首頁
新隨筆
聯(lián)系
聚合
管理
posts - 33, comments - 70, trackbacks - 0
HTMLParser屬性解析
HTMLParser 1.6
/*
html : html內(nèi)容
identifier: 搜索標(biāo)識(shí)
*/
private
?Object[]?extractText(String?html,?String?identifier)
????????????
throws
?Exception?
{
????????List
<
String
>
?resultTextList?
=
?
new
?ArrayList
<
String
>
();
????????Parser?parser?
=
?
new
?Parser();
????????parser.setInputHTML(html);
????????NodeFilter?filter?
=
?
new
?HasAttributeFilter(
"
class
"
,?identifier);
?/* NodeFilter?filter 就是要解析的過濾器,實(shí)現(xiàn)有好多種,我采用的屬性過濾,其他more api*/
????????NodeList?nodeList?
=
?parser.extractAllNodesThatMatch(filter);
/*
extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag
*/
????????
if
?(nodeList?
==
?
null
)
????????????
return
?
null
;
????????
if
(nodeList.size()?
==
?
0
)
????????????
return
?
null
;
????????
//
?System.out.println("start?==============?,size?=?"
????????
//
?+?nodeList.size());
????????Node[]?nodes?
=
?nodeList.toNodeArray();
????????String?line?
=
?
""
;
????????
for
?(
int
?i?
=
?
0
;?i?
<
?nodes.length;?i
++
)?
{
????????????Node?node?
=
?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
????????
if
?(node?
instanceof
?Span)?
{
????????????????Span?spanTag?
=
?(Span)?node;
????????????????line?
=
?spanTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?TableColumn)?
{
????????????????TableColumn?tableTag?
=
?(TableColumn)?node;
????????????????line?
=
?tableTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?Div)?
{
????????????????Div?divTag?
=
?(Div)?node;
????????????????line?
=
?divTag.toPlainTextString();
????????????}
????????????
if
?(StringUtil.isTrimEmpty(line))
{
????????????????
continue
;
????????????}
else
{
????????????????resultTextList.add(line);
????????????}
????????????
????????}
????????
return
?resultTextList.toArray();
????}
StringUtil 常用類
/**?*/
/**
?????*?去掉左右空格后字符串是否為空
?????
*/
????
public
?
static
?
boolean
?isTrimEmpty(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
if
?(isBlank(astr.trim()))
????????
{
????????????
return
?
true
;
????????}
????????
return
?
false
;
????}
????
/**?*/
/**
?????*?字符串是否為空:null或者長(zhǎng)度為0.
?????
*/
????
public
?
static
?
boolean
?isBlank(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
else
????????
{
????????????
return
?
false
;
????????}
????}
posted on 2006-05-22 17:30
地獄男爵(hellboys)
閱讀(2899)
評(píng)論(1)
編輯
收藏
所屬分類:
編程語言(c/c++ java python sql ......)
FeedBack:
#
re: HTMLParser屬性解析
2006-06-02 21:45 |
libby
想請(qǐng)教作者,可能是由于html的語法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問題.
我想利用htmlparser分析html頁面,生成一棵樹,感覺不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com
著急,謝謝!
回復(fù)
更多評(píng)論
新用戶注冊(cè)
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
相關(guān)文章:
優(yōu)化MySQL數(shù)據(jù)庫性能的八種方法
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
compass 中使用annatation 簡(jiǎn)化配置
Compass - springside 中的應(yīng)用
HTMLParser屬性解析
使用Lucene建立自己的搜索引擎初步(轉(zhuǎn))
Copyright ©2025 地獄男爵(hellboys) Powered By:
博客園
模板提供:
滬江博客
<
2006年5月
>
日
一
二
三
四
五
六
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
常用鏈接
我的隨筆
我的評(píng)論
我的參與
最新評(píng)論
隨筆分類
bash
vim(1)
系統(tǒng)綜合(12)
編程語言(c/c++ java python sql ......)(7)
隨筆(6)
隨筆檔案
2010年11月 (1)
2009年3月 (2)
2008年12月 (1)
2008年11月 (1)
2008年6月 (1)
2007年12月 (1)
2007年11月 (1)
2007年4月 (2)
2007年3月 (1)
2006年11月 (1)
2006年10月 (1)
2006年9月 (2)
2006年8月 (1)
2006年7月 (2)
2006年6月 (6)
2006年5月 (3)
2006年4月 (5)
2006年3月 (1)
文章檔案
2005年12月 (1)
相冊(cè)
SARA--以后LP的標(biāo)準(zhǔn)?
恍惚的美麗(2007年的五一)
連接
差沙
我以前blog地址
聰明的豬(cleverpig)
最新隨筆
1.?Open MacVim tabs from command-line
2.?優(yōu)化MySQL數(shù)據(jù)庫性能的八種方法
3.?Hadoop分布式文件系統(tǒng)(HDFS)的安全隱患
4.?sssh v2.0 - 快速 ssh 登陸腳本
5.?mod_python在 RHEL/CentOs 64 位編譯上的問題
6.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職
7.?Android中文文檔v0.1 beta低調(diào)發(fā)布,期待更多同學(xué)來參加review
8.?歡迎訪問Android中國(guó)
9.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
10.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
搜索
最新評(píng)論
1.?re: Mysql 集群簡(jiǎn)介和配置[未登錄]
@dustin
動(dòng)不動(dòng)就說不穩(wěn)定,人家島國(guó)的有個(gè)很大很大的社交網(wǎng)站就是這么搞的。你有啥子證據(jù)說不穩(wěn)定,服了你。
--菜鳥
2.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--527055685@qq.com
3.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)[未登錄]
@huchuhan
看不懂
!
--Sky
4.?re: Mysql 集群簡(jiǎn)介和配置
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--tmeper
5.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
哥們啥是鏈表?
--huchuhan
閱讀排行榜
1.?Mysql 集群簡(jiǎn)介和配置(61960)
2.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(13327)
3.?妙解網(wǎng)絡(luò)多臺(tái)dhcp引起的IP沖突 (5882)
4.?Compass - springside 中的應(yīng)用(5419)
5.?mod_python在 RHEL/CentOs 64 位編譯上的問題(3650)
評(píng)論排行榜
1.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(19)
2.?Compass - springside 中的應(yīng)用(18)
3.?Mysql 集群簡(jiǎn)介和配置(7)
4.?不要一輩子靠技術(shù)生存(7)
5.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職(5)
主站蜘蛛池模板:
亚洲色精品vr一区二区三区
|
亚洲视频在线观看免费视频
|
麻豆亚洲AV成人无码久久精品
|
香蕉国产在线观看免费
|
久久久高清免费视频
|
久久久久亚洲AV成人网人人网站
|
亚洲精华国产精华精华液好用
|
91短视频在线免费观看
|
亚洲日韩在线观看
|
免费精品视频在线
|
男女交性永久免费视频播放
|
日韩在线观看免费
|
亚洲AV无码欧洲AV无码网站
|
日韩在线视频线视频免费网站
|
亚洲av永久无码精品秋霞电影影院
|
无码人妻一区二区三区免费
|
亚洲国产精品综合久久久
|
免费va在线观看
|
国产天堂亚洲国产碰碰
|
免费一级毛片在级播放
|
免费无码成人AV在线播放不卡
|
久久亚洲精品国产精品黑人
|
99在线热播精品免费99热
|
亚洲视频在线精品
|
在线观看的免费网站
|
中文字幕永久免费
|
亚洲国产精品久久久久婷婷软件
|
久久精品国产这里是免费
|
亚洲AV日韩精品久久久久久久
|
免费观看a级毛片
|
在线免费观看你懂的
|
国产JIZZ中国JIZZ免费看
|
亚洲日产韩国一二三四区
|
成人毛片手机版免费看
|
337p日本欧洲亚洲大胆人人
|
久久精品国产亚洲av高清漫画
|
日本妇人成熟免费中文字幕
|
日本免费A级毛一片
|
久久久亚洲欧洲日产国码是AV
|
亚洲?V无码乱码国产精品
|
aa毛片免费全部播放完整
|