skip to main
|
skip to sidebar
Dolce Vita
曾經滄海難為水
5/2 (三) 工作日誌
今天把時間花在建立一個簡單的Execution流程,也就是先不加入HMM預測這部分。
這個簡單的流程從給定的起始網站開始, 查詢google以得到相似的網站,然後定一個變數來規定每個網站要抓取多少個網頁,這個流程雖然簡單,但要會碰到的問題不少,像是要過濾掉其他非text/html的網頁,網頁是否有重複,網頁如果無法連接要怎麼處理等等。
會先這樣做是因為想從簡單的流程開始,再一步步把預測這部分給加進去,避免整個流程一次從頭寫到尾,才不會出了錯不好理清楚問題點出在哪。
沒有留言:
張貼留言
較新的文章
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
實驗室Blogs
俊宏
坤章
正揚
阿岡
網誌存檔
網誌存檔
8月 (1)
6月 (17)
5月 (22)
4月 (20)
3月 (20)
2月 (5)
1月 (8)
沒有留言:
張貼留言