<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學(xué)習(xí),心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    云計算相關(guān)

    云計算相關(guān)
         摘要: nutch網(wǎng)上有不少有它的源碼解析,但是采集這塊還是不太讓人容易理解.今天終于知道怎么,弄的.現(xiàn)在把crawl-urlfilter.txt文件貼出來,讓大家一塊交流,也給自己備忘錄一個。  閱讀全文

    posted @ 2010-04-30 10:12 泰仔在線 閱讀(3394) | 評論 (0)  編輯 |

         摘要: 解決搜索動態(tài)內(nèi)容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認(rèn)是跳過所以,在動態(tài)頁中存在?一般按照默認(rèn)的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規(guī)則的順序是cr  閱讀全文

    posted @ 2010-04-24 19:06 泰仔在線 閱讀(2214) | 評論 (1)  編輯 |

         摘要: 今天主要研究了Nutch中的html頁面的解析問題,因為我的任務(wù)是從頁面中提取特定的文本,因此首先要找到Nutch如何將html中的文本提取出來。Nutch提供了兩種html解析器,nekohtml和tagsoup,我采用了neko的解析器,在看了代碼后,發(fā)現(xiàn)其提取文本的方法在org.apache.nutch.parse.html中的DOMContentUtils文件中,主要的函數(shù)是getTextHelper。  閱讀全文

    posted @ 2010-04-23 17:38 泰仔在線 閱讀(3084) | 評論 (1)  編輯 |

         摘要: 今天主要解決了Nutch中的一些小的問題,下面分別簡述一下。

    1.網(wǎng)頁快照亂碼問題

    Nutch的網(wǎng)頁快照是亂碼,解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件,修改其中的第63行。

    原來的代碼是:content = new String(bean.getContent(details);

    修改后的代碼是:content = new String(bean.getContent(details),"gb2312");
      閱讀全文

    posted @ 2010-04-23 17:36 泰仔在線 閱讀(439) | 評論 (0)  編輯 |

         摘要: 當(dāng)某個插件需要被加載時, Nutch 會加載所有插件的相關(guān)接口到緩存,此后每個插件需要實例的時候,根據(jù)相關(guān)接口和相關(guān)接口實現(xiàn)實例在緩存內(nèi)的記錄,使用反射實現(xiàn)一個實例并返回,下面以 QueryFilter 的所有插件被加載例子進行說明。  閱讀全文

    posted @ 2010-04-23 11:30 泰仔在線 閱讀(491) | 評論 (0)  編輯 |

         摘要: 主要類分析:
    一、 org.apache.nutch.crawl.Injector:
    1,注入url.txt
    2,url標(biāo)準(zhǔn)化
    3,攔截url,進行正則校驗(regex-urlfilter.txt)
    4,對符URL標(biāo)準(zhǔn)的url進行map對構(gòu)造,在構(gòu)造過程中給CrawlDatum初始化得分,分?jǐn)?shù)可影響url host的搜索排序,和采集優(yōu)先級!
    5,reduce只做一件事,判斷url是不是在crawldb中已經(jīng)存在,如果存在則直接讀取原來CrawlDatum,如果是新host,則把相應(yīng)狀態(tài)存儲到里邊(STATUS_DB_UNFETCHED(狀態(tài)意思為沒有采集過))

    二、org.apache.nutch.crawl.Generator:   閱讀全文

    posted @ 2010-04-23 11:05 泰仔在線 閱讀(1063) | 評論 (0)  編輯 |

         摘要: 讀者是沒有耐心的,我也沒有,所以先說結(jié)論:你可以不用編程序,只要鼠標(biāo)點幾下拖動些圖標(biāo),改改參數(shù),就能完成過億數(shù)據(jù)的分布處理程序。

    當(dāng)然,這么理想的目標(biāo)現(xiàn)在還沒有達到,但路已經(jīng)明明白白的展現(xiàn)在面前了,至少我們已經(jīng)走了接近一半了。  閱讀全文

    posted @ 2010-04-21 11:41 泰仔在線 閱讀(800) | 評論 (0)  編輯 |

         摘要: 1. 介紹
    MapReduce是google發(fā)明的一種編程模型。在這種編程模型下,用戶通過定義一個map函數(shù)和一個reduce函數(shù)來解決問題。map函數(shù)對用戶輸入的鍵/值對(key/value pair)進行處理(處理時可能只有值這一項有用),生成一系列新的鍵/值對作為中間結(jié)果;系統(tǒng)(MapReduce的實現(xiàn))對map函數(shù)生成的鍵/值對進行處理,將同屬于一個鍵(key)的值(value)組合在一起,生成鍵/值列表((key/list of values) pair)對;reduce函數(shù)將鍵/值列表對作為輸入,對同屬于一個鍵的值列表進行處理,生成最終處理結(jié)果輸出。

    如果一個問題可以通過MapReduce編程模型來表達和解決,就可以通過MapReduce系統(tǒng)自動獲得并行執(zhí)行能力。程序員不需要有并行程序設(shè)計的經(jīng)驗,只需要定義map和reduce函數(shù)。  閱讀全文

    posted @ 2010-04-21 11:29 泰仔在線 閱讀(1583) | 評論 (0)  編輯 |

    主站蜘蛛池模板: 久久国产亚洲高清观看| 啦啦啦中文在线观看电视剧免费版| 国产高清免费的视频| 久久精品国产亚洲AV忘忧草18| 99久久99热精品免费观看国产| 国产亚洲欧洲精品| 无人在线观看免费高清| 久热综合在线亚洲精品| 国产高清不卡免费视频| 免费精品久久久久久中文字幕| 青青草国产免费久久久91| 亚洲码和欧洲码一码二码三码| 午夜爱爱免费视频| 精品免费AV一区二区三区| 亚洲欧洲自拍拍偷精品 美利坚| 亚洲AV无码成人精品区天堂| 国产精品区免费视频| 亚洲精品电影在线| 日韩精品福利片午夜免费观着| 亚洲a∨无码男人的天堂| 日韩免费高清视频网站| 一级毛片在线完整免费观看| 亚洲国产a∨无码中文777| 99热在线免费观看| 亚洲人成未满十八禁网站| 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 亚洲综合色丁香麻豆| 久久久高清免费视频| 亚洲avav天堂av在线网毛片| 久99精品视频在线观看婷亚洲片国产一区一级在线 | 亚洲国产综合精品中文第一区| 真人做人试看60分钟免费视频| 亚洲国产精品成人午夜在线观看 | 久久夜色精品国产亚洲av| 亚洲av极品无码专区在线观看| 成年在线网站免费观看无广告| 理论亚洲区美一区二区三区| 亚洲女同成av人片在线观看 | 亚洲日韩国产精品乱-久| 免费夜色污私人影院在线观看| a毛片在线免费观看|