3/20 (二) 工作日誌

今天繼續昨天未完成的LSI步驟,昨天發現輸出到檔案的矩陣維度少了幾十個,在花了點時間後,發現輸出到螢幕上並沒有問題,而輸出到檔案就發生了問題,這讓我聯想到是不是資料緩衝的問題,結果後來強迫寫完檔案後要強迫把暫存的資料全部寫回檔案,便解決了這一個問題,其實這不是第一次碰到這個問題了,只是每次都會忘了有這個問題存在,以後要多加小心才是!
做完了LSI,接下來便是要對網頁做分群的動作,採用的是K-means,在網路上找了一下相關的工具及函式庫,還挺多範例可以看的,不過要花點時間改成我可以用的,這個分群的階段目的是為了要建成Concept Graph,也就是哪幾類的群可能連到Target群,有了這些資訊後,就可以著手訓練HMM模型了。

沒有留言: