
論文的主要方法:
今天把整個系統的流程重新想了一遍,從Input為seed URL及keywords of topic開始, 首先最主要要做的便是建立HMM的model,方法為用seed URL及keywords去query goolge, 例如(site:http://*.standford.edu admission)去google做查詢,查詢回來的結果可以讓 使用者標示哪些是target pages,我們就可以透過google提供的backline service得到從target pages到網站的top page:一連串的page sequences,從這些page sequences便可以建成concept grahp來training HMM。
而training的方法為maximum likelihood,要評估的兩個參數分別為transition and emission probabilities,在這裡之前報告的時候,老師曾提到公式的列法有錯誤,而我把相關的論文又看了一便後,還是有點不太懂,沒想到無意中在搜尋中,發現這篇論文的作者在2005年有提出了這篇論文的技術報告,在這份技術報告中,將所有的方法說的很詳盡,而大約看了一下後(有40多頁),發現tansition probability的部分Aij的確是以後面的狀態為主,也就是由i轉移到j的個數除以所有轉移到j的個數,而emission的部分則是老師上次所修正的,也就是Bij,所有觀測符號i在狀態j出現的次數除以在狀態j所有出現的觀測符號個數。
而系統架構圖我也重新做了修正,如上圖,預計明天將寫到一半主要方法寫完,訂定schedule跟老師討論完後,開始實做。
參考:
http://www.cs.dal.ca/research/techreports/2005/CS-2005-05.pdf
沒有留言:
張貼留言