地獄男爵之博客無(wú)限
BlogJava
首頁(yè)
新隨筆
聯(lián)系
聚合
管理
posts - 33, comments - 70, trackbacks - 0
HTMLParser屬性解析
HTMLParser 1.6
/*
html : html內(nèi)容
identifier: 搜索標(biāo)識(shí)
*/
private
?Object[]?extractText(String?html,?String?identifier)
????????????
throws
?Exception?
{
????????List
<
String
>
?resultTextList?
=
?
new
?ArrayList
<
String
>
();
????????Parser?parser?
=
?
new
?Parser();
????????parser.setInputHTML(html);
????????NodeFilter?filter?
=
?
new
?HasAttributeFilter(
"
class
"
,?identifier);
?/* NodeFilter?filter 就是要解析的過(guò)濾器,實(shí)現(xiàn)有好多種,我采用的屬性過(guò)濾,其他more api*/
????????NodeList?nodeList?
=
?parser.extractAllNodesThatMatch(filter);
/*
extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag
*/
????????
if
?(nodeList?
==
?
null
)
????????????
return
?
null
;
????????
if
(nodeList.size()?
==
?
0
)
????????????
return
?
null
;
????????
//
?System.out.println("start?==============?,size?=?"
????????
//
?+?nodeList.size());
????????Node[]?nodes?
=
?nodeList.toNodeArray();
????????String?line?
=
?
""
;
????????
for
?(
int
?i?
=
?
0
;?i?
<
?nodes.length;?i
++
)?
{
????????????Node?node?
=
?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
????????
if
?(node?
instanceof
?Span)?
{
????????????????Span?spanTag?
=
?(Span)?node;
????????????????line?
=
?spanTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?TableColumn)?
{
????????????????TableColumn?tableTag?
=
?(TableColumn)?node;
????????????????line?
=
?tableTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?Div)?
{
????????????????Div?divTag?
=
?(Div)?node;
????????????????line?
=
?divTag.toPlainTextString();
????????????}
????????????
if
?(StringUtil.isTrimEmpty(line))
{
????????????????
continue
;
????????????}
else
{
????????????????resultTextList.add(line);
????????????}
????????????
????????}
????????
return
?resultTextList.toArray();
????}
StringUtil 常用類
/**?*/
/**
?????*?去掉左右空格后字符串是否為空
?????
*/
????
public
?
static
?
boolean
?isTrimEmpty(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
if
?(isBlank(astr.trim()))
????????
{
????????????
return
?
true
;
????????}
????????
return
?
false
;
????}
????
/**?*/
/**
?????*?字符串是否為空:null或者長(zhǎng)度為0.
?????
*/
????
public
?
static
?
boolean
?isBlank(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
else
????????
{
????????????
return
?
false
;
????????}
????}
posted on 2006-05-22 17:30
地獄男爵(hellboys)
閱讀(2899)
評(píng)論(1)
編輯
收藏
所屬分類:
編程語(yǔ)言(c/c++ java python sql ......)
FeedBack:
#
re: HTMLParser屬性解析
2006-06-02 21:45 |
libby
想請(qǐng)教作者,可能是由于html的語(yǔ)法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問(wèn)題.
我想利用htmlparser分析html頁(yè)面,生成一棵樹(shù),感覺(jué)不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com
著急,謝謝!
回復(fù)
更多評(píng)論
新用戶注冊(cè)
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問(wèn)
管理
相關(guān)文章:
優(yōu)化MySQL數(shù)據(jù)庫(kù)性能的八種方法
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
compass 中使用annatation 簡(jiǎn)化配置
Compass - springside 中的應(yīng)用
HTMLParser屬性解析
使用Lucene建立自己的搜索引擎初步(轉(zhuǎn))
Copyright ©2025 地獄男爵(hellboys) Powered By:
博客園
模板提供:
滬江博客
<
2006年5月
>
日
一
二
三
四
五
六
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
常用鏈接
我的隨筆
我的評(píng)論
我的參與
最新評(píng)論
隨筆分類
bash
vim(1)
系統(tǒng)綜合(12)
編程語(yǔ)言(c/c++ java python sql ......)(7)
隨筆(6)
隨筆檔案
2010年11月 (1)
2009年3月 (2)
2008年12月 (1)
2008年11月 (1)
2008年6月 (1)
2007年12月 (1)
2007年11月 (1)
2007年4月 (2)
2007年3月 (1)
2006年11月 (1)
2006年10月 (1)
2006年9月 (2)
2006年8月 (1)
2006年7月 (2)
2006年6月 (6)
2006年5月 (3)
2006年4月 (5)
2006年3月 (1)
文章檔案
2005年12月 (1)
相冊(cè)
SARA--以后LP的標(biāo)準(zhǔn)?
恍惚的美麗(2007年的五一)
連接
差沙
我以前blog地址
聰明的豬(cleverpig)
最新隨筆
1.?Open MacVim tabs from command-line
2.?優(yōu)化MySQL數(shù)據(jù)庫(kù)性能的八種方法
3.?Hadoop分布式文件系統(tǒng)(HDFS)的安全隱患
4.?sssh v2.0 - 快速 ssh 登陸腳本
5.?mod_python在 RHEL/CentOs 64 位編譯上的問(wèn)題
6.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職
7.?Android中文文檔v0.1 beta低調(diào)發(fā)布,期待更多同學(xué)來(lái)參加review
8.?歡迎訪問(wèn)Android中國(guó)
9.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
10.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
搜索
最新評(píng)論
1.?re: Mysql 集群簡(jiǎn)介和配置[未登錄](méi)
@dustin
動(dòng)不動(dòng)就說(shuō)不穩(wěn)定,人家島國(guó)的有個(gè)很大很大的社交網(wǎng)站就是這么搞的。你有啥子證據(jù)說(shuō)不穩(wěn)定,服了你。
--菜鳥(niǎo)
2.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--527055685@qq.com
3.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)[未登錄](méi)
@huchuhan
看不懂
!
--Sky
4.?re: Mysql 集群簡(jiǎn)介和配置
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--tmeper
5.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
哥們啥是鏈表?
--huchuhan
閱讀排行榜
1.?Mysql 集群簡(jiǎn)介和配置(61959)
2.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(13327)
3.?妙解網(wǎng)絡(luò)多臺(tái)dhcp引起的IP沖突 (5880)
4.?Compass - springside 中的應(yīng)用(5419)
5.?mod_python在 RHEL/CentOs 64 位編譯上的問(wèn)題(3649)
評(píng)論排行榜
1.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(19)
2.?Compass - springside 中的應(yīng)用(18)
3.?Mysql 集群簡(jiǎn)介和配置(7)
4.?不要一輩子靠技術(shù)生存(7)
5.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職(5)
主站蜘蛛池模板:
中国好声音第二季免费播放
|
中文字幕亚洲一区
|
成全视频高清免费观看电视剧
|
亚洲色最新高清av网站
|
亚洲韩国—中文字幕
|
激情97综合亚洲色婷婷五
|
国产特级淫片免费看
|
国产在线观看片a免费观看
|
久草免费福利视频
|
v片免费在线观看
|
自拍偷自拍亚洲精品播放
|
亚洲午夜电影在线观看高清
|
亚洲福利视频一区
|
亚洲香蕉成人AV网站在线观看
|
亚洲成人高清在线
|
尤物永久免费AV无码网站
|
大地资源免费更新在线播放
|
99re免费在线视频
|
免费高清国产视频
|
a毛片在线免费观看
|
中文字幕乱码系列免费
|
一个人看www免费高清字幕
|
无人视频在线观看免费播放影院
|
亚洲日本一线产区和二线产区对比
|
亚洲国产品综合人成综合网站
|
亚洲在成人网在线看
|
亚洲伊人久久大香线蕉苏妲己
|
亚洲va久久久噜噜噜久久
|
亚洲狠狠婷婷综合久久久久
|
亚洲一卡2卡3卡4卡乱码 在线
|
亚洲精品国产免费
|
亚洲第一页中文字幕
|
亚洲春色在线观看
|
亚洲国产高清在线精品一区
|
成人免费毛片内射美女-百度
|
亚州免费一级毛片
|
2020久久精品国产免费
|
美女视频黄的全免费视频网站
|
毛色毛片免费观看
|
国产精品国产午夜免费福利看
|
免费精品国产自产拍观看
|