今天把時間花在看The World Vector Tool的package上面,我跑了一下它所提供的例子,發現它是針對個別的文件去建立Vector,所以這個部份可能要稍作修改,才能符合我的需求。
而它所提供的stemmer演算法包含了Dictionary Based, Lovins, Porter and Wordnet Baed Stemmer,Dictionary Based是包含了一個字典,裡面是(term, base form)的pair,而term可以讓使用者用regular expression來表示,然後對應到使用者想轉成的base form;Lovins Stemmer是一個single-pass, context-sensitive, longest-match Stemmer,它會移除字的最大的suffix;而Porter則是removing the commoner morphological and inflexional endings from words in English。
沒有留言:
張貼留言