1/24 (三) 工作日誌

把論文主要方法寫完並放上pbwiki,由於pbwiki沒辦法編寫方程式,所以就直接上傳檔案。

規劃系統實做的時程表:

1.建立可讓使用者瀏覽網頁並標示哪些頁面是target page的介面,並記錄下使用者瀏覽網頁的順序。(約1星期)
2.利用Google提供的backlink service,從使用者標示為tatget page開始,traverse到target page所在網站的首頁, 並將從首頁到target page這些網頁抓下來以便處理。(約3-4天)
3.網頁前處理(約1星期)
-抓出網頁裡所有出現的字
-removing stop word
-stemming
-converting all words to lower case
-表示成TF-IDF的矩陣
4.Apply Latent Semantic Indexing (LSI) to the matric and 使用k-means對網頁做分群。表示成concetp graph。(約1-2星期)
5.training HMM with concept graph. (約1-2星期)
6.將整個由網站首頁開始到抓取到相關網頁的整個流程整合起來。(約2星期)

沒有留言: