今日在圖書館嘗試自己寫優化算法算推土機距離, 裡面加上一個正則項就變成了convex的, 然後就可以用Torch來進行優化. 我算了一些, 然後我發下不是很穩定, 遇到這種情況, 我還不是很清楚應該怎麼辦. 現在的解決方案是1D的我就用Scipy的推土機距離算法, 至於2D的我就是使用加正則項的優化, 然後把正則項裡面熵的權重設置小一點, 那麼最後得到的距離和推土機距離基本就是一樣的. 最近又被信息論震撼了. 好多文章都在使用信息論. 機器學習的背後其實是信息論. 機器學習的中的經典的問題, 手寫字符識別. 把一個高維的圖像變成一個十維的向量. 十維的空間就是原本28x28維空間的流形. 從高維到低維的變換過程是可以微分的. 原本離散的分類問題, 變成了一個連續值預測的過程. 輸入是一個高緯度的點, 輸出是一個低緯度的點. 關於圖像類別這件事, 28x28的空間是包含了10維的空間的. 這個模型訓練的時候就是要使得H(Y|X)最小, 在已知輸入X的分布時, 要降低Y的不確定度. 至於如何表示Y, 不同的方式表示Y就是對X的一種測量. 同樣一張圖裡面包含的東西可能有很多. 如果是在MNIST的圖片中每一張上畫N個額外的圓圈. 讓機器同時預測圖片對應的數字Y1和圓圈的個數Y2. 這個問題換到我的工作中應該是讓一個模型同時給出結構Y1, 和結構的局部性質Y2. Y2應該怎麼得到SOAP應該就可以. 選幾個, 可以用Bingqing老師的方法.