- 思考了使用者介面該如何設計:必須要提供使用者輸入關鍵字以及起始點的URL, 使用關鍵字及起始點URL去對Google做查詢,接下來必須提供一個視窗讓使用者 可以標駐哪幾個是on-topic的頁面,接著把被標駐的頁面以及一連串的網頁順序 抓回至local端,應用LSI做降維,再將之做K-means分群,要提供一個參數可以調整K為多少,接下來要能顯示分群及網頁相連接關係的結果(concept graph), 再來用concept graph來訓練HMM,訓練完必須要能顯示HMM的parameters。 再來就是運用HMM來抓網頁,最後抓回來的網頁要依照網站做排序,一樣的網站的 網頁要放在一起顯示。
- Jahmm 這是我從網路上搜尋到的一個java HMM implementation,功能挺完整的, 包含了HMM參數的設定、訓練及推論,而且她還提供將HMM視覺化的功能, 希望能套用這個來實做我的系統,我對java不熟,但應該跟C++不會差太多, 所以我的系統選擇以java這個語言來實做。
- Java Robot Package Programming Spiders Bots and Aggregators in Java這本書中作者也提供了 一個package,對於實作crawler很有幫助,像是parsing HTML以及posting Forms 等等,而且剛好他也是以java實作的,目前我已經看到書的第四章HTML parsing, 這章提到如何運用這個package來抓網頁的link、img...等等。 如果能把這些已有的資源弄懂的話,對於我系統的實作應該會很有幫助!
1/18 (四) 工作日誌
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言