<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-23  評論-58  文章-0  trackbacks-0
    推翻了第一版,參考了其他分詞程序,重新寫的第二版。

    正向最大匹配中文分詞程序,能實現中英文數字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤
    public class FMM2 extends Seg
    {
        
    public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();
        
        
    /**
         * 
    @return 返回匹配最長詞的長度, 沒有找到返回 0.
         
    */

        
    public static int maxMatch(TreeNode node,char[] sen, int offset) 
        
    {
            
    int idx = offset - 1;
            
    for(int i=offset; i<sen.length; i++
            
    {
                node 
    = node.subNode(sen[i]);
                
    if(node != null
                
    {
                    
    if(node.isAlsoLeaf()) 
                        idx 
    = i; 
                }

                
    else 
                    
    break;
            }

            
    return idx + 1;
        }

        
        
    public ArrayList<Token> getToken(ArrayList<Sentence> list)
        
    {
            ArrayList
    <Token> tokenlist=new ArrayList<Token>();
            
    for(Sentence sen:list)
            
    {
                
    int i=0;
                
    while(i<sen.getText().length)
                
    {
                    TreeNode n
    =FMM2.dic.get(sen.getText()[i]);
                    
    if(n!=null)
                    
    {
                        
    int j=FMM2.maxMatch(n, sen.getText(),i);
                        
    if(j>i)
                        
    {
                            Token token 
    = new Token(new String(sen.getText(),i,j-i),sen.getStartOffset()+i,sen.getStartOffset()+j);
                            tokenlist.add(token);
                            i
    =j;
                        }

                        
    else
                        
    {
                            Token token 
    = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                            tokenlist.add(token);
                            i
    ++;
                        }

                    }

                    
    else
                    
    {
                        Token token 
    = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                        tokenlist.add(token);
                        i
    ++;
                    }

                }

            }

            
    return tokenlist;
        }

    }

    posted on 2012-06-27 13:39 nianzai 閱讀(1276) 評論(0)  編輯  收藏 所屬分類: 中文分詞
    主站蜘蛛池模板: 亚洲人成无码网站在线观看| 亚洲另类自拍丝袜第1页| 亚洲AV电影天堂男人的天堂| 国色精品卡一卡2卡3卡4卡免费| 亚洲av永久无码精品秋霞电影影院| jizz免费在线观看| 免费大黄网站在线观| 日韩在线视精品在亚洲| 国产一级大片免费看| 青青免费在线视频| 亚洲第一永久AV网站久久精品男人的天堂AV | 全黄A免费一级毛片| 亚洲精品国产日韩无码AV永久免费网| 国产精品亚洲专区一区| 亚洲精品无码99在线观看| rh男男车车的车车免费网站| 亚洲人成网亚洲欧洲无码久久| 国内精品免费久久影院| 久久久久亚洲精品无码蜜桃 | 一出一进一爽一粗一大视频免费的| 免费成人av电影| 99视频在线免费观看| 亚洲黄色在线观看视频| 在线观看av永久免费| 精品韩国亚洲av无码不卡区| 亚洲精品乱码久久久久久不卡| 国产成人无码区免费内射一片色欲 | 一区二区免费在线观看| 成人午夜亚洲精品无码网站| 国内精品免费在线观看| 亚洲国产精品成人综合久久久| 成人免费在线视频| 在线视频网址免费播放| 亚洲综合网美国十次| 日本一道在线日本一道高清不卡免费 | 91亚洲va在线天线va天堂va国产| 18禁免费无码无遮挡不卡网站| 亚洲精华国产精华精华液| 国产亚洲午夜高清国产拍精品 | 国产在线a不卡免费视频| 伊人久久大香线蕉免费视频|