<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-23  評(píng)論-58  文章-0  trackbacks-0
    全切分分詞程序。中華人民共和國(guó)切分成 {中華人民共和國(guó)|中華|華人|人民|共和國(guó)}。

    能實(shí)現(xiàn)中英文數(shù)字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤。
    public class FMW extends M
    {
        
    public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();
        
        
    /**
         * 
    @return 返回可能匹配詞的長(zhǎng)度, 沒有找到返回 0.
         
    */

        
    public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset) 
        
    {
            ArrayList
    <Integer> list=new ArrayList<Integer>();
            
    for(int i=offset; i<sen.length; i++
            
    {
                node 
    = node.subNode(sen[i]);
                
    if(node != null
                
    {
                    
    if(node.isAlsoLeaf()) 
                        list.add(i
    +1);
                }

                
    else 
                    
    break;
            }

            
    if(list.size()==0)
                list.add(offset);
            
    return list;
        }

        
        
    public ArrayList<Token> getToken(ArrayList<Sentence> list)
        
    {
            ArrayList
    <Token> tokenlist=new ArrayList<Token>();
            
    for(Sentence sen:list)
            
    {
                
    int i=0;
                
    while(i<sen.getText().length)
                
    {
                    TreeNode n
    =dic.get(sen.getText()[i]);
                    
    if(n!=null)
                    
    {
                        ArrayList
    <Integer> ilist =maxMatch(n, sen.getText(),i);
                        
    if(ilist.size()>1)
                        
    {
                            
    for(int j=0;j<ilist.size();j++)
                            
    {
                                Token token 
    = new Token(new String(sen.getText(),i,ilist.get(j)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(j));
                                tokenlist.add(token);
                            }

                        }

                        
    else
                        
    {
                            
    if(ilist.get(0)>i)
                            
    {
                                Token token 
    = new Token(new String(sen.getText(),i,ilist.get(0)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(0));
                                tokenlist.add(token);
                            }

                            
    else
                            
    {
                                
    if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())
                                
    {
                                    Token token 
    = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                                    tokenlist.add(token);
                                }

                            }

                        }

                    }

                    
    else
                    
    {
                        
    if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())
                        
    {
                            Token token 
    = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                            tokenlist.add(token);
                        }

                    }

                    i
    ++;
                }

            }

            
    return tokenlist;
        }

    }



    posted on 2012-07-02 14:17 nianzai 閱讀(3079) 評(píng)論(4)  編輯  收藏 所屬分類: 中文分詞

    評(píng)論:
    # re: 全切分分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 2012-07-16 11:16 | hadoop
    你好,非常感謝你的nut項(xiàng)目,在使用過程中有些問題:怎樣分發(fā)nutla生成的索引文件到每個(gè)datanode,代碼里面好像沒有提到,希望能給點(diǎn)思路,還有方便留下你的聯(lián)系方式嗎,想向你多學(xué)習(xí)  回復(fù)  更多評(píng)論
      
    # re: 全切分分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 2012-07-16 18:14 | nianzai
    這個(gè)現(xiàn)在需要手工分發(fā)。  回復(fù)  更多評(píng)論
      
    # re: 全切分分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 2012-07-16 18:15 | nianzai
    QQ:383138070  回復(fù)  更多評(píng)論
      
    # re: 全切分分詞程序,能實(shí)現(xiàn)中英文數(shù)字混合分詞 2014-05-14 15:32 | sdyjmc
    能對(duì)車牌號(hào)進(jìn)行分詞嗎? M 是什么啊  回復(fù)  更多評(píng)論
      
    主站蜘蛛池模板: 亚洲色成人网站WWW永久四虎 | 亚洲国产高清在线一区二区三区| 99精品免费视品| 亚洲深深色噜噜狠狠网站| 亚洲Av无码精品色午夜| 国产高清在线免费视频| 最近新韩国日本免费观看 | 久久久久久久99精品免费| 国产精品亚洲专区无码WEB| 激情内射亚洲一区二区三区| 亚洲一级片内射网站在线观看| 在线免费观看一区二区三区| 亚洲精品免费在线观看| 国产在线观看麻豆91精品免费| 2022免费国产精品福利在线| 亚洲AV无码一区二区三区久久精品 | 成人电影在线免费观看| 人妻仑乱A级毛片免费看| 在线观看亚洲专区| 亚洲中文字幕乱码熟女在线| 人妖系列免费网站观看| 999久久久免费精品国产| 免费人成网站在线高清| 四虎影视永久免费视频观看| 国产精品麻豆免费版| 亚洲五月综合缴情在线观看| 亚洲精品无码久久千人斩| 国产成人麻豆亚洲综合无码精品 | 免费精品国产自产拍在线观看| 日韩精品亚洲专区在线影视| 成人久久免费网站| 日本一道本高清免费| 内射无码专区久久亚洲| 亚洲成人影院在线观看| 久久精品国产亚洲av麻豆色欲| 综合偷自拍亚洲乱中文字幕| 亚洲免费二区三区| 国产精品成人免费一区二区 | 鲁大师在线影院免费观看| 中文字幕视频免费| yy6080久久亚洲精品|