中文字幕无码精品亚洲资源网,亚洲伊人久久大香线焦,亚洲av无码有乱码在线观看

Wed, 02 Apr 2008 12:53:00 GMT

再来1号问题：爬虫的工作过�E?/p>

来个图：

动作分解�Q?
<传言看源代码理解的更�l�致�Q�不�q�偶没看�Q�偶是根据文��和下午的操作�ȝ��的，错了��h��正�?gt;

1.创徏�I�数据库Webdb�Q?/p>

2.向Webdb中注入入口攫取地址�Q?/p>

3.�Ҏ��Webdb中数据生成fetchlist�Q��ƈ生成相应的segment�?/p>

4.�Ҏ��fetchlist攫取内容�Q�fetched content�Q��?/p>

5.�Ҏ��获取内容更新Webdb

6.重复执行3-5.�q�个�q�程52se�U�Cؓ“��?抓取/更新”��@环�?/p>

7.完成上面的��@环后�Q�根据Webdb中信息，如网��评分和链接信息�{�，再次更新segment.

8.索引被攫取的��面�Q�生成链接�?/p>

9.去除indexes中重复的内容和链接�?/p>

10.依靠indexes合成单一的index文�g。大功告成�?/p>

上面�q�些步骤都可以对应到Nutch�l�我们提供的CrawlTool中的命��o上�?/p>

爬虫忙完了，有了数据�Q�我们就可以利用Nutch的search部分功能来查扑ֆ�容了�?/p>

参考：Nutch爬虫工作��程及文件格式详�l�分�?/a>

Introduction to Nutch, Part 1: Crawling

�q�河�?/a> 2008-04-02 20:53 发表评论

Wed, 02 Apr 2008 12:52:00 GMT

昨天睡觉前，�ȝ��了感兴趣�?个问题，现在来回��一�?/p>

1.爬虫工作的过�E�？

2.爬虫获取数据后，数据的存储结构？

3.数据如何索引成Lucene讑֮�的烦引格式？

上午�q�工作耽误了，下午得闲�Q�看点资料。试��单�ȝ��一下上面几个问题的�?/p>

先回�{?号问题，数据的存储结构好了�?/p>

Nutch把爬虫找回来的资料做成了攑֜�一个文件夹里面�Q�美其名曰Web database。其实里面分别就四个文�g夹了事。依�ơ道来：

crawldb�Q�存��N��要抓取的的超链接地址�Q?
segments�Q�存放依据crawldb中提供的地址抓取到的内容信息。segments中的每个子文件夹存储fetcher�Ҏ��crawldb抓取一�ơ所得的内容。这些抓取的内容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的�|�页内容�Q�crawl_generate�Ҏ��crawldb最初生成；crawl_fetch、content在抓取时生成�Q�crawl_parse、parse_data、parse_text在解析抓取的数据文�g时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据�Q�它们格式一��P��不同的是抓取旉��、状态、签名等有所变化�?
Index和indexes�Q�Index是最�l�我们所需要得到的东西�Q�而Index��是通过indexes合�ƈ的到的�?
Linkdb�Q�linkdb中存攄��是所有超链接及其每个链接的连入地址和锚文�g�?

好了�q�个存储�l�构的问题完成了�?/p>

抽空先写�q�么多，呆会有时间在�l�箋�?/p>

�q�河�?/a> 2008-04-02 20:52 发表评论

Nutch0.9基本配置

Tue, 01 Apr 2008 09:11:00 GMT

下午配置成功了Nutch0.9.截图记录一下�?/p>

�|�络上面介绍�q�个配置的比较多�Q�我��׃��重复力_��了�?/p>

推荐文��如下�Q�Nutch Version 0.8x tutorial �Q�还有就是这里的��?a target="_blank">日志�?/p>

我在�q�里记录一下遇到的几个错误和解军_��法，大家可能有用�?/p>

如执行如下命令：
./nutch crawl ../urls.txt -dir ../ihooyo -depth 5 -topN 100
参数说明�Q?br /> -url ��是刚才我们创徏的url文�g,存放我们要抓取的�|�址
-dir 指定抓取内容所存放的目录，如上存在mydir�?br /> -threads 指定�q�发的线�E�数
-depth 表示以要抓取�|�站��|�址��v点的爬行深度
-topN 表示获取前多��条记录�Q�可�?/p>

可能错误1�Q?/p>

Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: sina5

说明�Q�指定要抓取的网址(url.txt)�l�过(crawl-urlfilters.xml)�q��o后，已经没有可抓取对象了�Q�检查两者的匚w��卛_��?/p>

可能错误2�Q?/p>

Dedup: starting
Dedup: adding indexes in: ../ihooyo/indexes
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

说明�Q�一般�ؓ./conf/nutch-site.xml文�g配置有错误。请参考如下配�|�修攏V�?br /> [xml]

http.agent.name
ihooyo

http.agent.description
apersonblog

http.agent.url
www.ihooyo.com

http.agent.email
pjuneye@qq.com

[/xml]
�q�种配置错误�Q�在log日志中可扑ֈ�提示�?/p>

可能错误3�Q?/p>

Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

说明�Q�一般�ؓcrawl-urlfilters.txt中配�|�问题，比如�q��o条�g应�ؓ
+^http://www.ihooyo.com ,而配�|�成�?http://www.ihooyo.com �q�样的情况就引�v如上错误�?/p>

好了写完了�?/p>

�q�河�?/a> 2008-04-01 17:11 发表评论

Tue, 01 Apr 2008 08:50:00 GMT

晚上�׃��近两个��时的时�?看了�|�络上一些关于Nutch的介�l?
搞明白的几个问题:

1.Nutch到底是什�?

Nutch是一个开源的Java语言实现的搜索引擎。它通过完整功能的搜索系�l��?/p>

2.Nutch和Lucene到底是什么关�p?两者如何取�?

Nutch��Z��Lucene�Q�Lucene为Nutch提供文本索引和搜索API。两者的取舍问题在于Lucene不能够�ؓ你抓取数据，所以如果在有数据源的情况下最好的方式是��用Lucene API来徏立烦引，完成搜烦。如果需要抓取数据的话，那自然是选择Nutch为好�?/p>

3.Nutch的基本安装步�?

�q�个问题有官�Ҏ��。在�q�里�?/p>

PS:��g��|�络Nutch上最多的帖子��是关于�q�个�?其中比较有意思的��是摆脱Cgywin的一些方�?比如利用window批处理或者利用ant.个�h�q�是觉得ant更通用.

4.Nutch的基本组�?

Nutch基本上两部分�l�成�Q�抓取部分和搜烦部分。抓取程序抓取页面�ƈ��抓取回来的数据做成反向索引�Q�搜索程序则��反向烦引搜索回�{�用��L��h��。两者的兌��部分在于索引�?br>具体内容�q�需要仔�l�看文档和介�l?

5.Nutch文档集中�?
http://wiki.apache.org/nutch/

补充完成�Q�今日��l�。愚��快乐!

�q�河�?/a> 2008-04-01 16:50 发表评论

Mon, 31 Mar 2008 07:21:00 GMT

注：原文不知出处�Q�群里�{载至此�?

�ѝ��大腕》经典对白：

一定要��N��最��行的框�Ӟ��
用功能最强大�~�辑器，
做就要做最复杂的系�l�，
轻量�U�的�l�对不行�Q?br>框架最��单也得是�Q�I��QԌ��Q�Ｇ�Q?br>什么��I�Q��啊，�Q�ﾃ�Q��I�QԌ��Q�Ｔ�Q�啊�Q�Ｓ�Q�Ａ�Q�啊�Q�能用的全都得用上，
表现层要可配�|�、持久层要可替换�Q?br>�E�序最好能用一万年�Q?br>客户一见面�Q�甭��有事没事，
都得问�h�Ӟ��您准备换框架不？
�pȝ��q�得能够集群
讉K��量再��也得同时开�Q�０几台服务�?br>一天２�Q�小时在�U?br>火星撞地球了都能提供服务
服务器上跑得都是weblogic、websphere
你要用一jboss�Q�都不好意思跟人家打招�?br>你说�q�系�l�，得做多长旉��Q?br>�Q�怎么��C��得５�q�吧�Q�）
�Q�年�Q�那是一期工�E�，
�Q�０�q��v�Q?br>你得揣摩老板的心理，
愿意花５�q�开发一套系�l�的老板�Q?br>�Ҏ��׃��在乎再多�{�５�q�_��
什么是软�g工程你知道么�Q?br>软�g工程��是�Q�搞什么都不用最好的�Q�用最复杂�?br>所以我们口号就是：
不求最好，但求最复杂�?/p>

�q�河�?/a> 2008-03-31 15:21 发表评论

排序�Q�堆排序��法

Tue, 30 Oct 2007 08:51:00 GMT

�q�是昨天朋友在面试过�E�中�Q�遇到的�W�试问题�Q�帮忙解军_ƈ自我学习之。主要是堆排序里面涉及的基本概念和排序过�E�。比如什么是堆以及利用堆排序的基本�?br>路等。数据结构里面知识基本上��是归还了老师了，希望�q�个排序能给自己提个醒�?/font>

基本思想�Q?/strong>

堆排序是一树�Ş选择排序�Q�在排序�q�程中，��R[1..N]看成是一颗完全二叉树的顺序存储结构，利用完全二叉树中双亲�l�点和孩子结点之间的内在关系来选择最��的元素�?/p>

堆的定义:

N个元素的序列K1,K2,

执行�l�果�Q?/pre>
>>>数组排序�?lt;<<

K3,...,Kn.�U�Cؓ堆，当且仅当该序列满��特性：
Ki≤K2i Ki ≤K2i+1(1�?I�?[N/2])

堆实质上是满��_��下性质的完全二叉树�Q�树中�Q一非叶子结点的关键字均大于�{�于其孩子结点的关键字。例如序�?0,15,56,25,30,70��是一个堆�Q�它对应的完全二叉树如上图所�C�。这�U�堆中根�l�点�Q�称为堆��Ӟ��的关键字最��，我们把它�U�Cؓ��根堆。反之，若完全二叉树中�Q一非叶子结点的关键字均大于�{�于其孩子的关键字，则称之�ؓ大根堆�?/p>
排序�q�程�Q?br>
堆排序正是利用小根堆�Q�或大根堆）来选取当前无序��Z��关键字小�Q�或最大）的记录实现排序的。我们不妨利用大根堆来排序。每一��排序的基本操作是：��当前无序区调整��Z��个大根堆�Q�选取关键字最大的堆顶记录�Q�将它和无序��Z��的最后一个记录交换。这��P��正好和直接选择排序相反�Q�有序区是在原记录区的尾部�Ş成�ƈ逐步向前扩大到整个记录区�?
��根堆排序实玎ͼ�
HeapSort.java
package javasort; class="rem">// 参考：http://blog.csdn.net/EmaYoung/archive/2007/09/29/1806228.aspx class="kwrd">public class HeapSort { class="rem">//调整无序序列为大根堆 s 为数�l�的起始下标�Q�m为终止下�?/span> class="kwrd">public void HeapAdjust(int[] arr, int s, int m) { class="kwrd">int temp = arr[s]; class="kwrd">for (int j = 2 * s + 1; j < m; j = j * 2 + 1) { class="kwrd">if (j + 1 < m && arr[j] > arr[j + 1]) { class="kwrd">if (temp < arr[j]) { class="kwrd">break; class="rem">//�Ҏ��大根堆，对堆排序 class="kwrd">public void HeapSorting(int[] arr) { class="rem">//把顺序表构徏成�ؓ一个大根堆 class="kwrd">for (int i = arr.length / 2 - 1; i >= 0; --i) { i, arr.length); class="kwrd">for (int j = arr.length - 1; j > 0; --j) { class="kwrd">int temp = arr[0]; ode">Main.java
class="kwrd">public class Main { class="kwrd">public static void main(String[] args) { class="kwrd">int[] arry_int = {49, 38, 65, 97, 76, 13, 27, 55}; class="str">"数组排序�?, arry_int); class="kwrd">out.println(); hsort = new HeapSort(); class="str">"数组排序�?, arry_int); class="kwrd">private static void show(String message, int[] array) { class="kwrd">out.println(">>>" + message + "<<<"); class="kwrd">for (int i = 0; i < array.length; i++) { class="kwrd">out.print(" " + array[i]); .csharpcode pre "Courier New", courier, monospace; { color: #cc6633; } { background-color: #ffff00; } 49 38 65 97 76 13 27 55
>>>数组排序�?lt;<<
97 76 65 55 49 38 27 13

�q�河�?/a> 2007-10-30 16:51 发表评论

Mon, 24 Sep 2007 13:19:00 GMT
            整个视频采用黑客帝国作�ؓ背景�Q�穿插介�l�了Web开发的��要历双Ӏ�后面三分钟对OperaMasks做了些王婆买瓜式的肯定，看�v来还不错�?br />
             可以点击�q�里观看

�q�河�?/a> 2007-09-24 21:19 发表评论

AXIS1.4 DOC 阅读�W�记

Sun, 02 Sep 2007 03:51:00 GMT

说明�Q�这部分只要是Axis1.4Doc的摘要，只截取了我不明白和感兴趣的部分。可以当作一个快速烦引和入门资料来看�Q�如有不明白可直接查看Axis1.4的发布文��?br /> �Ƣ迎转蝲�Q�但是请注明出处�Q��{载地址�Q?/span>http://www.tkk7.com/ponzmd/articles/142045.html

AXIS1.4 DOC 阅读�W�记

安装介绍

作�ؓ单独WebApplication安装

Step1:拯��AXIS工程/webapps/axis到相应web服务器的部��v目录卛_��
Step2:启动web服务�?讉K��: http://127.0.0.1:8080/axis/ �?http://localhost:8080/axis/happyaxis.jsp ;如不正常�Ҏ��错误卛_��
Step3:Test a SOAP Endpoint:http://localhost:8080/axis/services/Version?method=getVersion
Step4:Test a JWS Endpoint http://localhost:8080/axis/EchoHeaders.jws?method=list .

集成AXIS

1.Add axis.jar, wsdl.jar, saaj.jar, jaxrpc.jar and the other dependent libraries to your WAR file.
2.Copy all the Axis Servlet declarations and mappings from axis/WEB-INF/web.xml and add them to your own web.xml
3.Build and deploy your webapp.
4.Run the Axis AdminClient against your own webapp, instead of Axis, by changing the URL you invoke it with

遗留问题(没有配置成功)

如何配置使用SOAPMonitor?

注意事项

配置Classpath一定要加入所有的Jar包，��一个都会错

用户向导

什么是AXIS

AXIS: Apache EXtensible Interaction System

AXIS包括什�?

a SOAP engine -- a framework for constructing SOAP processors such as clients, servers, gateways
a simple stand-alone server
a server which plugs into servlet engines such as Tomcat
extensive support for the Web Service Description Language (WSDL)
emitter tooling that generates Java classes from WSDL
some sample programs,anda tool for monitoring TCP/IP packets

使用AXIS

部��vWebService

方式1�Q�JWS�Q�将需要部�|�的WebService的源文�g�Ҏ��展名.java�?jws,��其至于工程的根目录下面�Q�发布即告完成。需要注意的是：要部�|�的文�g只能使用默认包�?/span>
方式2�Q�WSDD�Q�编写WSDD文�g�Q�通过执行org.apache.axis.client.AdminClient来部�|�Ӏ�也可以通过此类撤销已部�|�的WebService服务�?/span>
配置WSDD�Q�通过org.apache.axis.client.AdminClient来部�|?/span>

WSDD: Web Service Deployment Descriptor
基本配置�Q?
<deployment xmlns="http://xml.apache.org/axis/wsdd/" xmlns:java="http://xml.apache.org/axis/wsdd/providers/java"> <service name="MyService" provider="java:RPC"> <parameter name="className" value="samples.userguide.example3.MyService"/> <parameter name="allowedMethods" value="*"/> service> deployment>

常用配置�Q�配�|�JavaBean 客户端代码：
QName qn = new QName( "urn:BeanService", "Order" ); call.registerTypeMapping(Order.class, qn, new org.apache.axis.encoding.ser.BeanSerializerFactory(Order.class, qn), new org.apache.axis.encoding.ser.BeanDeserializerFactory(Order.class, qn));
WSDD文�g�Q?
<beanMapping qname="myNS:Order" xmlns:myNS="urn:BeanService" languageSpecificType="java:samples.userguide.example5.Order"/>

扩展配置�Q�参照《Reference Material �?/span>

讉K��WebService

�~�写服务讉K��客户端，�q�执行之�Q�必要步骤，example3��Z��Q?/span>

Step1�Q�获取服务的讉K��地址�Q?
String endpointURL �Q?nbsp;“http://localhost:8080/axis/services/MyService";

Step2�Q�构建Service �?Call对象�Q?
Service service = new Service(); Call call = (Call) service.createCall();

Step3�Q�确定访问目标：
call.setTargetEndpointAddress( new java.net.URL(endpointURL) ); call.setOperationName( new QName("http://example3.userguide.samples", "serviceMethod") );

Step4�Q?可�? 配置参数�c�d��Q?
call.addParameter( "arg1", XMLType.XSD_STRING, ParameterMode.IN); call.setReturnType( org.apache.axis.encoding.XMLType.XSD_STRING );

Step5�Q�发赯��问，�q�获取反�?
String ret = (String) call.invoke( new Object[] { textToSend } );

Step6�Q�处理异�?
try {//上面那些  } catch (AxisFault fault) {et = "Error : " + fault.toString();}

通过WSDL来访问WebService�Q�必要步骤，以Example6��Z��Q?/span>

WSDL�Q?Web Service Description Language Web服务器描�q�语�a�是用XML文档来描�q�Web服务的标准，是Web服务的接口定义语�a��Q�由Ariba、Intel、IBM、MS�{�共同提出，通过WSDL�Q�可描述Web服务的三个基本属性：? 服务做些什么——服务所提供的操作（�Ҏ��Q??#22914;何访问服务——和服务交互的数据格式以及必要协�??#26381;务位于何处——协议相关的地址�Q�如URL
Step1�Q�获得WSDL文�g

方式1�Q?WSDL http:///axis/services/?wsdl http:///axis/*.jws?wsdl
方式2�Q�JAVA2WSDL工具 % java org.apache.axis.wsdl.Java2WSDL -o wp.wsdl -l"http://localhost:8080/axis/services/WidgetPrice" -n "urn:Example6" -p"samples.userguide.example6" "urn:Example6" samples.userguide.example6.WidgetPrice
Where: -o indicates the name of the output WSDL file -l indicates the location of the service -n is the target namespace of the WSDL file -p indicates a mapping from the package to a namespace. There may be multiple mappings. the class specified contains the interface of the webservice.

Step2�Q�通过WSDL2JAVA工具获得辅助�c?% java org.apache.axis.wsdl.WSDL2Java -o . -d Session -s -S true -N urn:Example6 samples.userguide.example6 wp.wsdl
WidgetPriceSoapBindingImpl.java : Java file containing the default server implementation of the WidgetPrice web service. You will need to modify the *SoapBindingImpl file to add your implementation WidgetPrice.java: 定义了Web服务接口 WidgetPriceService.java: 定义了用于获取Web服务接口的方法�?WidgetPriceServiceLocator.java: 定义了用于获取Web服务接口的方法�?WidgetPriceSoapBindingStub.java:Web服务客户端桩�Q�通过该类与服务器交互�?WidgetPriceSoapBindingSkeleton.java: Server side skeleton. deploy.wsdd: Deployment descriptor undeploy.wsdd: Undeployment descriptor �q�几个JAVA�c�d��我们处理了大部分的逻辑�Q�我们需要的仅仅是把�q�些�c�d��到我们的��目然后创徏一个我们自��q��c�L��调用它们卛_��
Step3�Q�编写客��L��代码: 通过***ServiceLocator构�?**Service�Ҏ��Q�通过***Service对象获得提供服务的类对象�Q�进而调用提供服务类对象上的�Ҏ��Q�提供服务�?

工具使用

the Axis TCP Monitor :java org.apache.axis.utils.tcpmon [listenPort targetHost targetPort]
the SOAP Monitor :

WebService安全

常见��d��方式

Denial of Service to a server
Interception and manipulation of messages
Forged client requests or Forged server responses
attempts to read the server file system/database
Attempts to write to the server file system/database

判断来访�?/span>

AXIS不支持判断请求服务的是谁.可以使用 xmlsec.jar来支援它
AXIS推荐使用HTTPS来加��U�安全�?/span>
Axis 不支持HTTP1.1 Digest Authentication,需要the HttpClient libraries配合工作

可考虑的安全措�?/span>

Disguise:不要让�h知道你运行了AXIS
Cut down the build: 仅仅保留你需要的部分
Rename things:换掉默认的名�U?如The AxisServlet, the AdminService, even happyaxis.jsp
Stop AxisServlet listing services :axis.enableListQuery =false
Keep stack traces out of the responses :axis.development.system =true
Edit the .wsdd configuration file, as described in the reference, to return a WSDL resource which is simply an empty tag.
Servlets2.3: use filters for extra authentication
Log things
Run Axis with reduced Java rights
Run the web server with reduced rights
Monitor Load
Consider 'tripwire' and 'honeypot' endpoints(没明�?

AXIS ANT Task

在axis-ant.jar中定�?/span>
主要��d��

Creating Java files from WSDL
Creating WSDL files from Java
Talking to the admin service
具体配置看文�?/span>

《Reference Material�?

其中注意包括了WSDL2JAVA�Q�JAVA2WSDL的具体��用，以及WSDD的配�|�信息等技术细�?/span>

�q�河�?/a> 2007-09-02 11:51 发表评论

中文字幕无码精品亚洲资源网,亚洲伊人久久大香线焦,亚洲av无码有乱码在线观看

Introduction to Nutch, Part 1: Crawling

Nutch0.9基本配置

排序�Q�堆排序���法

AXIS1.4 DOC 阅读�W�记

排序�Q�堆排序��法