5/2 (三) 工作日誌

今天把時間花在建立一個簡單的Execution流程,也就是先不加入HMM預測這部分。
這個簡單的流程從給定的起始網站開始, 查詢google以得到相似的網站,然後定一個變數來規定每個網站要抓取多少個網頁,這個流程雖然簡單,但要會碰到的問題不少,像是要過濾掉其他非text/html的網頁,網頁是否有重複,網頁如果無法連接要怎麼處理等等。
會先這樣做是因為想從簡單的流程開始,再一步步把預測這部分給加進去,避免整個流程一次從頭寫到尾,才不會出了錯不好理清楚問題點出在哪。

沒有留言: