星期三因為家裡有事,所以沒有什麼進度。
因為backlink和URL取一個個目錄的方法都會遭遇到找不到網頁的問題,所以我還是覺得使用使用者從User Labeling這個階段瀏覽網頁的過程當作訓練資料會比較好;接下來就是把網頁抓下來做前處理,包含了移除stop word和stemming,並表示計算成TF-IDF的matrix,在這個階段我有在網路上搜尋了一下相關的工具,有一個叫做The World Vector Tool,它提供了Text Document Vector的表示法,也提供了remove stop word and stemming,而且stemming提供了多種不同的方法,而看了它所提供的例子也還挺簡單使用的,所以我會使用這個tool來做接下來的網頁處理。
沒有留言:
張貼留言