推翻了第一版,參考了其他分詞程序,重新寫的第二版。
逆向最大匹配中文分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤
public class RMM2 extends M


{
public static final HashMap<Character,TreeNode> dic = Dictionary.getRmmdic();

/** *//**
* @return 返回匹配最長詞的長度, 沒有找到返回 0.
*/
public int maxMatch(TreeNode node,char[] sen, int offset)

{
int idx = offset;
for(int i=offset; i>=0; i--)

{
node = node.subNode(sen[i]);
if(node != null)

{
if(node.isAlsoLeaf())
idx = i;
}
else
break;
}
return idx ;
}
public ArrayList<Token> getToken(ArrayList<Sentence> list)

{
Collections.reverse(list);
ArrayList<Token> tokenlist=new ArrayList<Token>();
for(Sentence sen:list)

{
int i=sen.getText().length-1;
while(i>-1)

{
TreeNode n=dic.get(sen.getText()[i]);
if(n!=null)

{
int j=maxMatch(n, sen.getText(),i);
if(j<i)

{
Token token = new Token(new String(sen.getText(),j,i-j+1),sen.getStartOffset()+j,sen.getStartOffset()+i+1);
tokenlist.add(token);
i=j-1;
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i--;
}
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i--;
}
}
}
Collections.reverse(tokenlist);
return tokenlist;
}
}
posted @
2012-06-29 17:29 nianzai 閱讀(1369) |
評(píng)論 (0) |
編輯 收藏
推翻了第一版,參考了其他分詞程序,重新寫的第二版。
正向最大匹配中文分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤
public class FMM2 extends Seg


{
public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();

/** *//**
* @return 返回匹配最長詞的長度, 沒有找到返回 0.
*/
public static int maxMatch(TreeNode node,char[] sen, int offset)

{
int idx = offset - 1;
for(int i=offset; i<sen.length; i++)

{
node = node.subNode(sen[i]);
if(node != null)

{
if(node.isAlsoLeaf())
idx = i;
}
else
break;
}
return idx + 1;
}
public ArrayList<Token> getToken(ArrayList<Sentence> list)

{
ArrayList<Token> tokenlist=new ArrayList<Token>();
for(Sentence sen:list)

{
int i=0;
while(i<sen.getText().length)

{
TreeNode n=FMM2.dic.get(sen.getText()[i]);
if(n!=null)

{
int j=FMM2.maxMatch(n, sen.getText(),i);
if(j>i)

{
Token token = new Token(new String(sen.getText(),i,j-i),sen.getStartOffset()+i,sen.getStartOffset()+j);
tokenlist.add(token);
i=j;
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i++;
}
}
else

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
i++;
}
}
}
return tokenlist;
}
}
posted @
2012-06-27 13:39 nianzai 閱讀(1269) |
評(píng)論 (0) |
編輯 收藏
摘要: Reactor 模式的 JAVA NIO 多線程服務(wù)器
Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class MiniServer extends Thread{ &nb...
閱讀全文
posted @
2011-08-29 18:35 nianzai 閱讀(3100) |
評(píng)論 (3) |
編輯 收藏
摘要: 基于詞典的逆向最大匹配中文分詞算法,能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤。實(shí)際分詞效果比正向分詞效果好 查看第2版:逆向最大匹配分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 (第二版)
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://w...
閱讀全文
posted @
2011-08-19 13:22 nianzai 閱讀(4487) |
評(píng)論 (2) |
編輯 收藏
摘要: 基于詞典的正向最大匹配中文分詞算法,能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤第一次寫中文分詞程序,歡迎拍磚。查看第2版:正向最大匹配分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 (第二版)
Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.Code...
閱讀全文
posted @
2011-08-04 15:31 nianzai 閱讀(3461) |
評(píng)論 (1) |
編輯 收藏
原理:通過瀏覽器去訪問要抓取的Ajax、腳本網(wǎng)頁地址,通過讀取瀏覽器內(nèi)存document來得到腳本執(zhí)行以后的網(wǎng)頁內(nèi)容
1、文件路徑為帶抓取網(wǎng)頁地址,格式如下:
1,http://www.google.com
2,http://www.baidu.com
......
......
2、保存路徑為抓取下來的網(wǎng)頁保存路徑
Ajax、腳本網(wǎng)頁內(nèi)容抓取小工具
點(diǎn)這下載
posted @
2011-04-27 13:37 nianzai 閱讀(2169) |
評(píng)論 (1) |
編輯 收藏
blog: http://www.tkk7.com/nianzai/
code: http://code.google.com/p/nutla/
一、安裝
1、 安裝虛擬機(jī) Oracle VM VirtualBox4.0.4
2、 在虛擬機(jī)下安裝 Red Hat 6.0
3、 安裝jdk jdk-6u24-linux-i586.bin 安裝路徑為:/home/nianzai/jdk1.6.0_24
4、 安裝hadoop hadoop-0.20.2.tar.gz 安裝路徑為:/home/nianzai/hadoop-0.20.2
5、 安裝zookeeper zookeeper-3.3.3.tar.gz 安裝路徑為:/home/nianzai/zookeeper-3.3.3
6、 安裝hbase hbase-0.90.2.tar.gz 安裝路徑為:/home/nianzai/hbase-0.90.2
二、配置
1、Linux配置
ssh-keygen –t rsa -P ''
cd .ssh
cp id_rsa.pub authorized_keys
/etc/hosts里增加 192.168.195.128 master
/etc/profile 里增加
export JAVA_HOME=/home/nianzai/jdk1.6.0_24
export PATH=$PATH:$JAVA_HOME/bin
2、hadoop配置
hadoop-env.sh
JAVA_HOME=/home/nianzai/jdk1.6.0._24
core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/nianzai/hadoop</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
masters
master
sh hadoop namenode -format
sh start-all.sh
sh hadoop fs -mkdir input
3、zookeeper配置
zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/nianzai/zkdata
clientPort=2181
sh zkServer.sh start
4、hbase配置
hbase-env.sh
export JAVA_HOME=/home/nianzai/jdk1.6.0_24
export HBASE_MANAGES_ZK=false
將hbase0.90.2 lib目錄下hadoop-core-0.20-append-r1056497.jar刪除,替換成hadoop0.20.2 下的hadoop-0.20.2-core.jar
hbase-site.xml
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.master.port</name>
<value>60000</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master</value>
</property>
</configuration>
regionservers
master
sh start-hbase.sh
posted @
2011-04-19 11:32 nianzai 閱讀(4073) |
評(píng)論 (6) |
編輯 收藏
http://code.google.com/p/nutla/
1、概述
不管程序性能有多高,機(jī)器處理能力有多強(qiáng),都會(huì)有其極限。能夠快速方便的橫向與縱向擴(kuò)展是Nut設(shè)計(jì)最重要的原則,以此原則形成以分布式并行計(jì)算為核心的架構(gòu)設(shè)計(jì)。以分布式并行計(jì)算為核心的架構(gòu)設(shè)計(jì)是Nut區(qū)別于Solr、Katta的地方。
Nut是一個(gè)Lucene+Hadoop分布式并行計(jì)算搜索框架,能對(duì)千G以上索引提供7*24小時(shí)搜索服務(wù)。在服務(wù)器資源足夠的情況下能達(dá)到每秒處理100萬次的搜索請(qǐng)求。
Nut開發(fā)環(huán)境:jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongodb+linux
2、特新
a、熱插拔
b、可擴(kuò)展
c、高負(fù)載
d、易使用,與現(xiàn)有項(xiàng)目無縫集成
e、支持排序
f、7*24服務(wù)
g、失敗轉(zhuǎn)移
3、搜索流程
Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。(Cache實(shí)現(xiàn)了對(duì)memcached的支持,DB實(shí)現(xiàn)了對(duì)hbase,mongodb的支持)
Client處理用戶請(qǐng)求和對(duì)搜索結(jié)果排序。Search對(duì)請(qǐng)求進(jìn)行搜索,Search上只放索引,數(shù)據(jù)存儲(chǔ)在DB中,Nut將索引和存儲(chǔ)分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲(chǔ)著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當(dāng)前頁中的文檔id從DB上讀取數(shù)據(jù)。
用戶發(fā)起搜索請(qǐng)求給由Nut Client構(gòu)成的集群,由某個(gè)Nut Client根據(jù)搜索條件查詢Cache服務(wù)器是否有該緩存,如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù),如果沒有緩存將隨機(jī)選擇一組搜索服務(wù)器組(Search Group i),將查詢條件同時(shí)發(fā)給該組搜索服務(wù)器組里的n臺(tái)搜索服務(wù)器,搜索服務(wù)器將搜索結(jié)果返回給Nut Client由其排序,取出當(dāng)前頁文檔id,將搜索條件和當(dāng)前文檔id緩存,同時(shí)從DB讀取數(shù)據(jù)。
4、索引流程
Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個(gè)索引服務(wù)器。
對(duì)索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
a、刪除
在HDFS上刪除索引,將生成的*.del文件分發(fā)到所有的索引服務(wù)器上去或者對(duì)HDFS索引目錄刪除索引再分發(fā)到對(duì)應(yīng)的索引服務(wù)器上去。
b、添加
新添加的數(shù)據(jù)用另一臺(tái)服務(wù)器來生成。
刪除和添加步驟可按不同定時(shí)策略來實(shí)現(xiàn)。
5、Nut分布式并行計(jì)算特點(diǎn)
Nut分布式并行計(jì)算雖然也是基于M/R模型,但是與Hadoop M/R模型是不同的。在Hadoop M/R模型中 Mapper和Reducer是一個(gè)完整的流程,Reducer依賴于Mapper。數(shù)據(jù)源通過Mapper分發(fā)本身就會(huì)消耗大量的I/O,并且是消耗I/O最大的部分。所以Hadoop M/R 并發(fā)是有限的。
Nut M/R模型是將Mapper和Reducer分離,各自獨(dú)立存在。在Nut中 索引以及索引管理 構(gòu)成M,搜索以及搜索服務(wù)器組 構(gòu)成 R。
以一個(gè)分類統(tǒng)計(jì)來說明Nut分布式并行計(jì)算的流程。假設(shè)有10個(gè)分類,對(duì)任意關(guān)鍵詞搜索要求統(tǒng)計(jì)出該關(guān)鍵詞在這10個(gè)分類中的總數(shù)。同時(shí)假設(shè)有10組搜索服務(wù)器。索引以及索引管理進(jìn)行索引數(shù)據(jù)的Mapper,這塊是后臺(tái)獨(dú)自運(yùn)行管理的。Nut Client將這10個(gè)分類統(tǒng)計(jì)分發(fā)到10組搜索服務(wù)器上,每組搜索服務(wù)器對(duì)其中一個(gè)分類進(jìn)行Reducer,并且每組搜索服務(wù)器可進(jìn)行多級(jí)Reducer。最后將最終結(jié)果返回給Nut Client。
6、設(shè)計(jì)圖

7、Zookeeper服務(wù)器狀態(tài)管理策略

在架構(gòu)設(shè)計(jì)上通過使用多組搜索服務(wù)器可以支持每秒處理100萬個(gè)搜索請(qǐng)求。
每組搜索服務(wù)器能處理的搜索請(qǐng)求數(shù)在1萬—1萬5千之間。如果使用100組搜索服務(wù)器,理論上每秒可處理100萬個(gè)搜索請(qǐng)求。
假如每組搜索服務(wù)器有100份索引放在100臺(tái)正在運(yùn)行中搜索服務(wù)器(run)上,那么將索引按照如下的方式放在備用中搜索服務(wù)器(bak)上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺(tái)備用搜索服務(wù)器上。那么每份索引會(huì)存在3臺(tái)機(jī)器中(1份正在運(yùn)行中,2份備份中)。
盡管這樣設(shè)計(jì)每份索引會(huì)存在3臺(tái)機(jī)器中,仍然不是絕對(duì)安全的。假如運(yùn)行中的index 1,index 2,index 3同時(shí)宕機(jī)的話,那么就會(huì)有一份索引搜索服務(wù)無法正確啟用。這樣設(shè)計(jì),作者認(rèn)為是在安全性和機(jī)器資源兩者之間一個(gè)比較適合的方案。
備用中的搜索服務(wù)器會(huì)定時(shí)檢查運(yùn)行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對(duì)應(yīng)的服務(wù)器宕機(jī)就會(huì)向lock申請(qǐng)分布式鎖,得到分布式鎖的服務(wù)器就將自己加入到運(yùn)行中搜索服務(wù)器組,同時(shí)從備用搜索服務(wù)器組中刪除自己,并停止運(yùn)行中搜索服務(wù)器檢查服務(wù)。
為能夠更快速的得到搜索結(jié)果,設(shè)計(jì)上將搜索服務(wù)器分優(yōu)先等級(jí)。通常是將最新的數(shù)據(jù)放在一臺(tái)或幾臺(tái)內(nèi)存搜索服務(wù)器上。通常情況下前幾頁數(shù)據(jù)能在這幾臺(tái)搜索服務(wù)器里搜索到。如果在這幾臺(tái)搜索服務(wù)器上沒有數(shù)據(jù)時(shí)再向其他舊數(shù)據(jù)搜索服務(wù)器上搜索。
優(yōu)先搜索等級(jí)的邏輯是這樣的:9最大為搜索全部服務(wù)器并且9不能作為level標(biāo)識(shí)。當(dāng)搜索等級(jí)level為1,搜索優(yōu)先級(jí)為1的服務(wù)器,當(dāng)level為2時(shí)搜索優(yōu)先級(jí)為1和2的服務(wù)器,依此類推。
posted @
2011-02-17 13:20 nianzai 閱讀(5388) |
評(píng)論 (9) |
編輯 收藏
http://www.tkk7.com/nianzai/
PDF文檔下載
一、 概述
在網(wǎng)頁抓取項(xiàng)目中通常最缺的是IP地址資源,大多數(shù)網(wǎng)站對(duì)抓取會(huì)做些限制(比如同一IP地址的線程數(shù)限制,再比如幾分鐘之內(nèi)同一IP地址的頁面訪問次數(shù)限制)。
基于P2P模式的分布式抓取方案是利用分散在各處的可上網(wǎng)機(jī)器來抓取網(wǎng)頁,可有效的突破網(wǎng)站限制。
二、設(shè)計(jì)圖

上網(wǎng)客戶端1 。。。上網(wǎng)客戶端m是分散在各處能直接上網(wǎng)的機(jī)器,這些上網(wǎng)客戶端機(jī)器定時(shí)向狀態(tài)服務(wù)區(qū)報(bào)告自己的心跳。
抓取客戶端 1 。。。抓取客戶端 n 是集中放在某處的抓取機(jī)器。抓取客戶端機(jī)器定時(shí)向狀態(tài)服務(wù)器獲取可用上網(wǎng)客戶端列表,然后抓取客戶端機(jī)器直接與上網(wǎng)客戶端建立連接,抓取客戶端機(jī)器直接通過上網(wǎng)客戶端來抓取網(wǎng)頁。
三、實(shí)現(xiàn)方案
方案一:
在上網(wǎng)客戶端機(jī)器上安裝共享上網(wǎng)代理軟件比如ccproxy,抓取客戶端以代理的方式通過上網(wǎng)機(jī)器抓取網(wǎng)頁。該方案簡單易行,無技術(shù)障礙。
方案二:
開發(fā)一套簡化版P2P軟件,抓取客戶端機(jī)器將抓取請(qǐng)求分發(fā)給客戶端機(jī)器,客戶端機(jī)器將網(wǎng)頁抓取下來傳回給抓取客戶端機(jī)器。該方案復(fù)雜些,但可擴(kuò)展性極強(qiáng)。在掌握了大量上網(wǎng)客戶端機(jī)器后完全可以做成云計(jì)算進(jìn)行商業(yè)運(yùn)作。
posted @
2010-12-29 15:47 nianzai 閱讀(2237) |
評(píng)論 (2) |
編輯 收藏
http://www.tkk7.com/nianzai/
http://code.google.com/p/nutla/
一、安裝
1、 安裝虛擬機(jī) vmware6.5.2
2、 在虛擬機(jī)下安裝Linux Fedora14
3、 安裝jdk jdk-6u22-linux-i586.bin 安裝路徑為:/home/nianzai/jdk1.6.0_22
4、 安裝hadoop hadoop-0.20.2.tar.gz 安裝路徑為:/home/nianzai/hadoop-0.20.2
5、 安裝zookeeper zookeeper-3.3.1.tar.gz 安裝路徑為:/home/nianzai/zookeeper-3.3.1
6、 安裝hbase hbase-0.20.6.tar.gz 安裝路徑為:/home/nianzai/hbase-0.20.6
二、配置
1、Linux配置
ssh-keygen –t rsa -P ''
cd .ssh
cp id_rsa.pub authorized_keys
/etc/hosts里增加 192.168.195.128 nz 并且將127.0.0.1 改為 192.168.195.128
2、hadoop配置
hadoop-env.sh
JAVA_HOME=/home/nianzai/jdk1.6.0._22
core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-nianzai</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://nz:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>nz:9001</value>
</property>
</configuration>
sh hadoop namenode -format
sh start-all.sh
sh hadoop fs -mkdir input
3、zookeeper配置
zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/nianzai/zkdata
clientPort=2181
sh zkServer.sh start
4、hbase配置
hbase-env.sh
export JAVA_HOME=/home/nianzai/jdk1.6.0_22
export HBASE_MANAGES_ZK=false
hbase-site.xml
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://nz:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.master.port</name>
<value>60000</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>nz</value>
</property>
</configuration>
regionservers
nz
sh start-hbase.sh
posted @
2010-11-17 13:43 nianzai 閱讀(2502) |
評(píng)論 (0) |
編輯 收藏