8/2 (四) 工作日誌

實驗的部分
近來有試著做銀行的Exchange Rate
以及電腦公司的Server產品資訊

在Exchage Rate這部分
我以www.bankofcanada.ca/en/index.html當作Seed
而以rate當作URL的Keyword
實驗的結果挺差的
在找到網頁的TOP10中只有2到3個是真正符合需求的
造成結果這麼差的原因我覺得有以下一些原因
1.銀行的首頁通常包含太多的Link
一旦路徑走偏了 很難回頭
且Exchage Rate的網頁通常在首頁很難察覺它在哪裡
2.有些銀行是提供表單的方式來做查詢
這麼一來 跟我們所標示的網頁相似度就很低
3.以Google來找相似的英文銀行網站 準確性很低
而有些結果其實是跟用來查詢的銀行同一家銀行的網頁
只是不同頁面而已

而在電腦公司的Server產品資訊這方面
也有著上述的第一點問題
而且在這個domain的首頁
通常畫面都太複雜 也就是搭配像是Flash以及javascript所撰寫出來的功能
像這個部分要取得Link就比較困難
另外就是每家公司的Server產品名稱以及對於產品的敘述
都有所不同
造成與被標示的網頁相似度也不高
而且用Google所找到真正的相似網站也不多
到是找到許多做不同產品的公司 也就是不是賣Server相關的
所以效果比銀行的Exchage Rate還差

因為這兩個domain效果不佳的狀況下
我想說從http://dir.yahoo.com奇摩的分類下去找domain
有試著看了一下醫院的門診時間或是主治醫生
不過國外的醫院網頁架構還挺不同的
再加上對國外的有那些醫院也不熟
目前還在摸索中

6/28 (四) 工作日誌

今天meeting報的論文的確覺得沒有很多的改變
感覺也很簡短
但居然能上WWW
還挺讓人覺得奇怪的

實驗的部分
admission和accepted paper算是把效果做得還不錯了
但兩個domain不太夠
目前exchange rate這個domain還在跑實驗
因為跑一次時間大約一兩個小時
還加上反覆的要去調整效果
所以目前實驗還沒有最後結果

昨天問了有關口試時間
我想我真的不夠積極與主動找老師討論
所以目前還達不到能口試的程度
我會繼續努力跟修正自己的態度
謝謝老師給我的建議

6/27 (三) 工作日誌

今天花時間在弄實驗
accepted paper我分別用不同的起始點作
以及讓她找更多相似的網站
之前相似網站只用google找了三到四次
但accepted paper似乎在找相似網站時
重複性挺高的
所以我讓她找更多的網站
但是時間也相對的更久
但找到的網頁也有多了一點

6/25 (一) 工作日誌

今天時間都花在實驗的部分
Admission和accepted paper重跑已有結果
也修改論文實驗的部分
讓結果呈現找到的url,相似度,以及是否真的為target網頁
而找銀行匯率相關網頁
由於本身對銀行網頁的階層概念沒那麼清楚
所以從首頁到匯率花了很久再找
阿岡也幫我找了一些例子
我想這也是一個理由為什麼我需要做這個系統
當使用者對一類網站階層概念不熟悉時
他能藉由標示少量的資料
來找到更多相似的網頁

6/22 (五) 工作日誌

由於實驗的部分在報告的時候
老師希望起始的網站是由使用者標示而來
所以我實驗的部分需要重新跑一次
另外實驗的domain需要多兩三個
也正在try當中
下星期會盡快給老師一個更完整的論文版本