PorterStemFilter
所謂Stemming,可以稱為詞根化,這里有個overview。在英語這樣的拉丁語系里面,單詞有多種變形。比如加上-ed、-ing、-ly等等。在分詞的時候,如果能夠把這些變形單詞的詞根找出了,對搜索結果是很有幫助的。Stemming算法有很多了,三大主流算法是Porter stemming algorithm、Lovins stemming algorithm、Lancaster (Paice/Husk) stemming algorithm,還有一些改進的或其它的算法。這個PorterStemFilter里面調用的一個PorterStemmer就是Porter Stemming algorithm的一個實現。