今天開始著手進行LSI的階段,首先我改了一下TermOccurences輸出的格式,以方便我做下一個步驟,接下來我把document-term的表示法做了轉置,變成了Term-Document表示法,接著把這個矩陣丟給了Jama,算出了它的SVD,也就是X=USV,過程還挺順利的,但是仔細check了一下發現做完後的Term維度有少了十幾個,這是有點奇怪的,因為LSI是在S這個對角矩陣中選出具代表性的前幾個singular values,但是相乘起來應該也還是t*d的矩陣,可能需要再花點時間找一下這個部份的bug出在哪裡,才能夠繼續往下做下去。
沒有留言:
張貼留言