
2013年5月14日
摘要: Reactor 模式的 JAVA NIO 多線程服務器,這是比較完善的一版了。Java 的 NIO 網絡模型實在是不好用,還是使用現成的好。Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class NIOServer...
閱讀全文
posted @
2013-05-14 16:31 nianzai 閱讀(2726) |
評論 (1) |
編輯 收藏

2013年4月27日
我學東西通常是通過動手的方式來學習,比如最近學習分布式服務協議paxos,自己就動手開發了一個該協議的實現版本。如果不動手實現只是靠學習理論是很難理解這個理論的本身。理解它最好的方式就是實踐它。
根據理論或者原理就來做實現確實很難,這需要很強的代碼功底、極高的理解能力以及持久的耐心。
扎實的功底是一切的開始,沒有扎實的功底就無法下手。沒有很好的悟性就很難保證事情的正確性。沒有良好的耐心就很難保證事情的結果。一次性就能將事情做成做好的,這種人實在太少了。做成一件事情就是在無數的失敗、錯誤中來接近成功,通過失敗來糾正、從而一步一步的接近成功。這就注定了需要持久的耐心才能保證成功。
posted @
2013-04-27 10:13 nianzai 閱讀(1974) |
評論 (0) |
編輯 收藏

2013年4月23日
1、提出者向leader發出詢問消息
2、leader向所有的QuorumPeer發出投票請求
3、QuorumPeer對該請求進行投票,如果消息的txid大于QuorumPeer的txid則通過該投票,否則反對該投票
4、leader根據所有的QuorumPeer投票結果進行計算,如果有一半以上的QuorumPeer通過則接受提出者的請求,否則拒絕提出者的請求
switch (message.getType())

{
case QuorumCode.ask://詢問類型
//詢問該事務是否可操作
Ask task=new Ask(message,sc);
My.executor.execute(task);
m.setCode(JuiceCode.OK);
break;
case QuorumCode.vote://投票類型
if(My.txid>=message.getTxid())
//拒絕
m.setCode(JuiceCode.ERROR);
else

{
//通過
m.setCode(JuiceCode.OK);
My.updateMyTxid(message.getTxid());
}
break;
case QuorumCode.ping://ping
m.setCode(JuiceCode.OK);
m.setMyid(message.getMyid());
break;
}


public static boolean sendAndVote(Message m) throws IOException

{
m.setType(QuorumCode.vote);
Map<Integer,Response> mp=new TreeMap<Integer,Response>();
for(Map.Entry<Integer,NIOClient> entry:voteClientMap.entrySet())

{
NIOClient client=entry.getValue();
Response response=client.send(ByteUtil.getBytes(m));
mp.put(entry.getKey(), response);
}

Map<Integer,Message> vote=new TreeMap<Integer,Message>();
for(Map.Entry<Integer,Response> entry:mp.entrySet())
vote.put(entry.getKey(), (Message)ByteUtil.getObject(entry.getValue().getData()));

int ok=0;
for(Map.Entry<Integer,Message> entry:vote.entrySet())

{
Message f=entry.getValue();
if(f.getCode()==JuiceCode.OK)
ok++;
}
if(ok/(vote.size()*1.0)>1/2.0)
return true;
return false;
}
posted @
2013-04-23 13:19 nianzai 閱讀(1756) |
評論 (0) |
編輯 收藏

2013年4月17日
1、收集第一輪投票結果
2、統計投票數,計算出投票數最大的id
3、如果投票數超過1/2則選該id為leader
4、如果最大投票數id沒有超過1/2,則推薦txid最大的id為leader
5、計算出最大的txid及其服務器id
6、計算出最大的txid有幾個
7、如果最大txid超過一個,則比較服務器id,推薦服務id最大的為leader
8、發起第二輪投票
Java實現代碼如下:

/** *//**
* 選舉leader
* @param vote 投票信息
* @return
*/
public int forLeader(Map<Integer,Notification> vote)

{
//統計leader投票數
TreeMap<Integer,Integer> tmap=new TreeMap<Integer,Integer>();
for(Map.Entry<Integer,Notification> entry:vote.entrySet())

{
Notification nf=entry.getValue();
if(tmap.containsKey(nf.leader))
tmap.put(nf.leader, tmap.get(nf.leader)+1);
else
tmap.put(nf.leader, 1);
}
//計算出投票數最大的id
int a=0;
int l=0;
for(Map.Entry<Integer,Integer> entry:tmap.entrySet())

{
if(entry.getValue()>a)

{
a=entry.getValue();
l=entry.getKey();
}
}
//如果投票數超過1/2則選該id為leader
if(a/(My.serverList.size()*1.0)>1/2.0)

{
//選出leader
if(l==My.myid)
My.myServerState=ServerState.LEADING;
else
My.myServerState=ServerState.FLLOWING;
My.leader=l;
return -1;
}
//如果最大投票數leader沒有超過1/2,則推薦txid最大的id為leader
//計算出最大的txid及其服務器id
long txid=0;
int leader=0;
for(Map.Entry<Integer,Notification> entry:vote.entrySet())

{
if(entry.getValue().txid>txid)

{
leader=entry.getKey();
txid=entry.getValue().txid;
}
}
//計算出最大的txid有幾個
Map<Integer,Notification> vte=new TreeMap<Integer,Notification>();
for(Map.Entry<Integer,Notification> entry:vote.entrySet())

{
if(entry.getValue().txid==txid)

{
vte.put(entry.getValue().id, entry.getValue());
}
}
//如果超過一個,則比較服務器id,推薦服務id最大的為leader
if(vte.size()>1)

{
for(Map.Entry<Integer,Notification> entry:vte.entrySet())

{
if(entry.getValue().id>leader)
leader=entry.getKey();
}
}
return leader;
}
}
posted @
2013-04-17 11:15 nianzai 閱讀(1879) |
評論 (0) |
編輯 收藏

2012年9月29日
原理:通過瀏覽器去訪問要抓取的Ajax、腳本網頁地址,通過讀取瀏覽器內存document來得到腳本執行以后的網頁內容
在原有的基礎上增加 自定義命令腳本 抓取功能。該功能能夠通過用戶自定義的腳本來實現與網頁的交互,比如填寫內容,點擊網頁上的提交按鈕。
這樣便能抓取需要提交的網頁內容了,特別是需要提交的ajax網頁。

Ajax、腳本網頁內容抓取工具(第二版)
點這下載
posted @
2012-09-29 14:26 nianzai 閱讀(1846) |
評論 (1) |
編輯 收藏

2012年9月14日
摘要: 本隱馬可夫(HMM)中文分詞詞性標注程序 中的 隱馬可夫(HMM)概率模型 是由 PFR人民日報標注語料199801語料庫 生成Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class HMM{  ...
閱讀全文
posted @
2012-09-14 17:08 nianzai 閱讀(3861) |
評論 (0) |
編輯 收藏

2012年9月7日
wikipedia上有個java版的Viterbi(維特比)實現程序(
http://en.wikipedia.org/wiki/Viterbi_algorithm),但是3個觀察序列會標注出4個狀態序列。
下面本人寫的這個Viterbi(維特比)實現程序就沒這個問題,3個觀察序列就只標注出3個狀態序列。
public class Viterbi


{
public static void main(String[] args)

{

String[] states =
{"Rainy", "Sunny"};

String[] observations =
{"walk", "shop", "clean"};

double[] start_probability =
{0.6, 0.4};

double[][] transition_probability =
{
{0.7, 0.3},
{0.4, 0.6}};

double[][] emission_probability =
{
{0.1, 0.4, 0.5},
{0.6, 0.3, 0.1}};
forward_viterbi(observations,states,start_probability,transition_probability,emission_probability);
}
public static void forward_viterbi(String[] observations, String[] states,double[] start_probability, double[][] transition_probability, double[][] emission_probability)

{
int[][] path=new int[observations.length][states.length];
double[][] r=new double[observations.length][states.length];
for(int j=0;j<states.length;j++)

{
r[0][j]=start_probability[j]*emission_probability[j][0];
path[0][j]=0;
}
for(int t=1;t<observations.length;t++)

{
for(int i=0;i<states.length;i++)

{
double tmp=0;int m=0;
for(int j=0;j<states.length;j++)

{
double tem=r[t-1][j]*transition_probability[j][i]*emission_probability[i][t];
if(tem>tmp)

{
tmp=tem;
m=j;
}
}
r[t][i]=tmp;
path[t][i]=m;
}
}
double p=0;int m=0;
for(int i=0;i<r[0].length;i++)

{
if(r[r.length-1][i]>p)

{
p=r[r.length-1][i];
m=i;
}
}
System.out.println("p="+p);
int[] trace=new int[observations.length];
trace[observations.length-1]=m;
for(int t=observations.length-1;t>0;t--)

{
trace[t-1]=path[t][m];
m=path[t][m];
}
for(int i=0;i<trace.length;i++)
System.out.println(states[trace[i]]);
}
}。
posted @
2012-09-07 16:43 nianzai 閱讀(1986) |
評論 (0) |
編輯 收藏

2012年8月31日
摘要: 最大概率分詞程序,在所有可能分詞路徑中選擇概率最大的一條路徑最為分詞結果Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class MPM extends M{ &...
閱讀全文
posted @
2012-08-31 10:12 nianzai 閱讀(2447) |
評論 (0) |
編輯 收藏

2012年8月24日
最短路徑分詞法
public class SPM2 extends M


{
public static final HashMap<Character,TreeNode> dic = Dictionary.loadFreqDictionary("sogou.txt");

/** *//**
* @return 返回可能匹配詞的長度, 沒有找到返回 0.
*/
public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset)

{
ArrayList<Integer> list=new ArrayList<Integer>();
for(int i=offset; i<sen.length; i++)

{
node = node.subNode(sen[i]);
if(node != null)

{
if(node.isAlsoLeaf())
list.add(i+1);
}
else
break;
}
return list;
}
@Override
public ArrayList<Token> getToken(ArrayList<Sentence> list)

{
ArrayList<Token> tokenlist=new ArrayList<Token>();
for(Sentence sen:list)

{
AdjList g = new AdjList(sen.getText().length+1);//存儲所有被切分的可能的詞
int i=0;
while(i<sen.getText().length)

{
Token token = new Token(new String(sen.getText(),i,1),i,i+1);
token.setWeight(1);
g.addEdge(token);
TreeNode n=dic.get(sen.getText()[i]);
if(n!=null)

{
ArrayList<Integer> ilist =maxMatch(n, sen.getText(),i);
if(ilist.size()>0)
for(int j=0;j<ilist.size();j++)

{
token = new Token(new String(sen.getText(),i,ilist.get(j)-i),i,ilist.get(j));
token.setWeight(1);
g.addEdge(token);
}
}
i++;
}
//System.out.println(g);
ArrayList<Integer> ret=maxProb(g);
Collections.reverse(ret);
int first=0;
for(Integer last:ret)

{
Token token = new Token(new String(sen.getText(),first,last-first),sen.getStartOffset()+first,sen.getStartOffset()+last);
tokenlist.add(token);
first=last;
}
}
return tokenlist;
}
int[] prevNode;
double[] prob;
//計算出路徑最短的數組
public ArrayList<Integer> maxProb(AdjList g)

{
prevNode = new int[g.verticesNum]; //最佳前驅節點
prob = new double[g.verticesNum]; //節點路徑
prob[0] = 0;//節點0的初始路徑是0
//按節點求最佳前驅
for (int index = 1; index < g.verticesNum; index++)
getBestPrev(g,index);//求出最佳前驅
ArrayList<Integer> ret = new ArrayList<Integer>();
for(int i=(g.verticesNum-1);i>0;i=prevNode[i]) // 從右向左找最佳前驅節點
ret.add(i);
return ret;
}
//計算節點i的最佳前驅節點
void getBestPrev(AdjList g,int i)

{
Iterator<Token> it = g.getPrev(i);//得到前驅詞集合,從中挑選最佳前趨詞
double maxProb = 1000;
int maxNode = -1;
while(it.hasNext())

{
Token itr = it.next();
double nodeProb = prob[itr.getStart()]+itr.getWeight();//候選節點路徑
//System.out.println(itr.getWord()+","+nodeProb);
if (nodeProb < maxProb)//路徑最短的算作最佳前趨

{
maxNode = itr.getStart();
maxProb = nodeProb;
}
}
prob[i] = maxProb;//節點路徑
prevNode[i] = maxNode;//最佳前驅節點
}
}
posted @
2012-08-24 14:57 nianzai 閱讀(1973) |
評論 (0) |
編輯 收藏

2012年7月2日
全切分分詞程序。中華人民共和國切分成 {中華人民共和國|中華|華人|人民|共和國}。
能實現中英文數字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤。
public class FMW extends M


{
public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();

/** *//**
* @return 返回可能匹配詞的長度, 沒有找到返回 0.
*/
public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset)

{
ArrayList<Integer> list=new ArrayList<Integer>();
for(int i=offset; i<sen.length; i++)

{
node = node.subNode(sen[i]);
if(node != null)

{
if(node.isAlsoLeaf())
list.add(i+1);
}
else
break;
}
if(list.size()==0)
list.add(offset);
return list;
}
public ArrayList<Token> getToken(ArrayList<Sentence> list)

{
ArrayList<Token> tokenlist=new ArrayList<Token>();
for(Sentence sen:list)

{
int i=0;
while(i<sen.getText().length)

{
TreeNode n=dic.get(sen.getText()[i]);
if(n!=null)

{
ArrayList<Integer> ilist =maxMatch(n, sen.getText(),i);
if(ilist.size()>1)

{
for(int j=0;j<ilist.size();j++)

{
Token token = new Token(new String(sen.getText(),i,ilist.get(j)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(j));
tokenlist.add(token);
}
}
else

{
if(ilist.get(0)>i)

{
Token token = new Token(new String(sen.getText(),i,ilist.get(0)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(0));
tokenlist.add(token);
}
else

{
if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
}
}
}
}
else

{
if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())

{
Token token = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
tokenlist.add(token);
}
}
i++;
}
}
return tokenlist;
}
}
posted @
2012-07-02 14:17 nianzai 閱讀(3077) |
評論 (4) |
編輯 收藏