3/12 (一) 工作日誌
今天又花了許多時間在看WVTool的文件,本來以為它只能處理Plain Text Document,還在想說我可能需要把使用者瀏覽的網頁先都抓下來並處理成Plain Text,自己要動手parse HTML document,後來試了很久,終於可以讓這個Tool讀取URL並對HTML文件直接做處理,包含了移除stop word, stemming,我還可以選擇是要算TermOccurence, TermFrequence, Binary or TFIDF等等。明天打算把使用者瀏覽過程的網頁餵進今天試的這個module,我就可以得到初步處理好的TF-IDF矩陣了,在接下來便是LSI (Latent Semantic Indexing)的部份了!
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言