今天把抓回來的網頁跟使用者標示為target的網頁做cosine相似度計算的這部分給完成了,也花了點時間把整個系統Execution的流程做了些修正。
然後我先以一個網站開始,例如http://www.bu.edu/,試著去找Admission相關的網頁,發現效果不是很好,當我將cosine similarity定為0.7時,花了十幾分鐘仍然找不到相似度高於0.7的網頁,而依我觀察的結果,在前十幾分鐘所抓到的網頁相似度大部分介於0.01~0.30,只有偶而會突然抓到0.6多相似度的網頁,在這樣的情況下光一個網站就需要花這麼多的時間。
我想可能有許多問題會造成這麼差的狀況,明天會繼續針對一些想到的問題再做一些調整,看看是否能讓情況好一點。
論文的方面,下星期開始會先將寫論文做為重心,希望能盡早把論文初稿快點搞定!
沒有留言:
張貼留言