Dolce Vita: 4/17 (二) 工作日誌

Concept Graph的概念一直覺得自己的認知有錯誤，所以今天又重新詳讀了論文Probabilistic Models for Focused Web Crawling一次，看完後我覺得正確的解讀應該是如下：經使用者瀏覽一連串網頁順序後，我們對這些網頁作分群，目的要讓每個網頁都有一個相對應的群；而這一連串的瀏覽網頁順序，我們要依此建立一個Web Graph，然後以breadth first search的方式去拜訪這個Web Graph來確定有多少隱藏狀態及給每一個網頁一個隱藏狀態，這樣才會構成正確的訓練資料。之前的想法是依照分好的群去建立所謂的Concept Graph，這個認知是錯誤的！