AG视讯 當別人在高談闊論機器學習時,你卻插不上嘴,這是一種怎樣的體驗?不懂機器學習沒有關系,但你一定要知道下面的十個機器學習基本常識。曾經在Endeca、谷歌和LinkedIn機器學習開發的Daniel Tunkelang為我們概括總結了這十個常識。

每個人都應該知道的十個機器學習常識

1. 機器學習就是從數據中挖掘洞見,而人工智能是炒作。

AG视讯 只要使用了正確的訓練數據和算法,機器學習可以解決大部分問題。而所謂的人工智能,只不過是一種包裝。只要有助于營銷,你要把它叫作什么都可以。

2. 數據和算法是機器學習的核心,而數據更為重要。

雖然人們熱衷于研究機器學習算法,但數據才是機器學習的關鍵要素。機器學習可以沒有復雜完備的算法,但沒有高質量的數據就弗成。

3. 如果你沒有大量數據,就不要使用太復雜的模型。

AG视讯 機器學習根據輸入參數來探索模型空間,參數越多,越有可能涌現過擬合,所以應該要盡量遵循簡單模型的原則。

4. 機器學習的結果取決于數據的質量。

種瓜得瓜,種豆得豆。機器學習只能發現已經存在于數據中的模式。好比在解決分類問題時,就要求訓練數據具有清晰的特征。

5. 只有當訓練數據具有代表性時,機器學習能力奏效。

AG视讯 過去不克不及代表未來。要時刻警惕訓練數據和生產數據之間涌現傾斜,經常性地訓練數據,避免數據模型過時。

6. 機器學習困難的部分其實是數據轉換。

AG视讯 機器學習的鼎力炒作可能會給你造成一種印象,就是機器學習主要是如何選擇和調劑算法。但實際上,機器學習工作的大部分時間花在了數據清理和特征工程上,也就是將數據的原始特征轉換成更具表示性的特征。

7. 深度學習是革命性的,但不是銀彈。

深度學習對部分傳統的特征工程進行了自動化,特別是在圖像和視頻處理領域。但深度學習不是銀彈,我們無法在它擅長的領域之外應用它,況且,我們仍然要花很多精力進行數據清理和轉換。

8. 機器學習系統也是高度軟弱的。

機器學習算法不會干掉人類,干掉人類的是人類自己。機器學習系統如果涌現故障,通常都不是因為機器學習算法自己,而是人類在訓練數據中引入了毛病。要時刻警惕,軟件工程中涌現的毛病在機器學習系統中同樣會涌現。

9. 機器學習可能在無意之中發明出可自我實現的預言。

今天通過機器學習做出的決策,將會影響未來收集到的訓練數據。如果你在機器學習系統中嵌入了某種偏見,它會連續賡續地生成新的訓練數據,這些數據反過來增強了這種偏見,而有些偏見會毀掉人類的生活。所以,不要讓機器學習系統有機會發明出可自我實現的預言。

10. 人工智能不會自我感知,也不會崛起到要干掉人類。

很多吃瓜群眾從科幻片子中看到人工智能。但要注意,我們可以從科幻片子中獲得靈感,但它們究竟不是現實,我們真正要擔心的是人類無意識地在機器學習系統中嵌入偏見。