今天也同樣花了時間在寫論文,related work部分多寫了兩段,是有關於focused crawling的相關研究部分,這部分尚未完全寫完。
程式部分,從使用者標示為target網頁的root url要traverse到被標示的網頁,我有另一種有別於BFS的想法,我想將每個被標示為target網頁的url拿來跟每個找到的outlink做包含於的比較,如果outlink有被包含於被標示為target網頁的url,我讓這個outlink這個字串長度的倒數當作拜訪的priority,如此一來長度越長也就是表示越相像,則priority就越高,至於其他不被包含的就按照BFS的順序,初步的想法覺得這樣應該能很快找到被標示的網頁,但實做上還尚未做到!
沒有留言:
張貼留言