3/15 (四) 工作日誌

今天把URL不能連接的問題給解決了,在wvtool裡,可以設定要不要skip error。
接下來要做的動作是將Latent Semantic Indexing (LSI),這個的目的是希望能降低過高的維度,因為網頁在vector space model中有許多entries會是0,所以我們希望透過LSI來取出比較重要的屬性出來代表網頁,而我在這個部份有找到兩個tool:JAMA and GTP 。因為LSI最主要就是要做singular value decomposition (SVD),而JAMA有提供了矩陣的SVD,而GTP則是針對LSI所寫的工具,不過它需要填些資訊給作者才能取得它的source,目前正在等它的回覆!

沒有留言: