發(fā)布時間:2024-2-18 分類: 行業(yè)動態(tài)
這篇文章分享了一些關于機器學習的知識,希望能給PM帶來好處。
2017年可以說是人工智能爆炸的一年,傳統(tǒng)的互聯(lián)網(wǎng)紅利消失了,著名的大工廠BAT正在人工智能上布局。作為互聯(lián)網(wǎng)PM,據(jù)了解,技術變革將不可避免地帶來新的機遇。對于大多數(shù)互聯(lián)網(wǎng)PM來說,面對ML(機器學習),DL(深度學習),NLP(自然語言處理)以及各種概念和底層所需的各種數(shù)學知識,似乎人們不了解技術。這是氣餒的。
但事實并非完全正確。人工智能是一種手段。最終的目標是找到一個可以實際登陸和商業(yè)化的場景,以實現(xiàn)其價值,盡管它仍然是技術主導的。但是,可以確信的一點是,要進入這一領域,對基礎知識和技術的要求必然高于因特網(wǎng)PM的水平。
我目前是互聯(lián)網(wǎng)PM。我剛去學校做相關專業(yè)。我有一點數(shù)學。我還完成了代碼設計實現(xiàn)。 “基于BP前饋神經(jīng)網(wǎng)絡的圖像識別”將在未來進入AI領域。重新學習和構建AI的知識框架,我希望與大家分享,以了解AI在“高”上的樣子。
首先,根據(jù)李小來的老師和羅發(fā)的理論,學習一個領域的知識是兩件事(1)找到一個概念(2)來構造。特別是對于許多不理解這個概念的學生,必須有一個“知識地圖”如下:
看到這張大腦地圖,一些孩子的鞋子經(jīng)常被混淆。
什么是機器學習?
什么是深度學習?
機器學習和深度學習有什么區(qū)別?
機器學習監(jiān)督學習模式中的“學習思維”
我們來看看每一個
1.機器學習
概念定義(個人理解):通過大量已知數(shù)據(jù)(可以標記或不標記)訓練算法模型,總結某些數(shù)據(jù)之間的映射關系(即法則),最后實現(xiàn)對未知數(shù)據(jù)的智能處理。 (分類,識別,預測等)
例如,我在這里有很多蘋果和桃子的圖片,每張圖片都標有相應的類別,然后將圖片輸入模型,以便不斷優(yōu)化模型。訓練結束后,我們還發(fā)現(xiàn)了一些未貼標簽的蘋果和桃子圖片來拋出這個模型,讓他做分類來判斷它是蘋果還是桃子,這是一個完整的機器學習過程(監(jiān)督)。所謂“地圖關系”,即“蘋果圖片”,“對應蘋果標簽”,“桃花圖片”,“桃花標簽”等。
2.基本概念
(1)學習方法
學習風格分為監(jiān)督學習和無監(jiān)督學習。如果有監(jiān)督學習,我們將在模型訓練之前手動處理數(shù)據(jù),并執(zhí)行手動預處理和標記(學名:特征提?。?。監(jiān)督學習分為回歸和分類。
無監(jiān)督學習意味著數(shù)據(jù)直接發(fā)送到算法而無需人工預處理。無監(jiān)督學習方法是“聚類”。
(2)學習過程
訓練集(訓練樣本):我們在訓練算法模型時給他數(shù)據(jù)
驗證集:經(jīng)過訓練樣本訓練后,我們還使用訓練樣本外的數(shù)據(jù)來測試算法模型的實際效果
錯誤:如何檢查效果?在ML/DL中,它是根據(jù)“錯誤”的大小來判斷的(關于如何計算,將提到下一個)
不合適:模型無法在訓練集上獲得足夠低的誤差
過度擬合:訓練誤差與測試誤差(驗證集中的誤差)之間的差異太大,因此該模型不是一個好的模型,因為它只能用于訓練樣本和hellip;。
泛化:對其他數(shù)據(jù)使用訓練模型,如果效果好,則是很好的推廣
那么問題就來了,適當?shù)暮线m是什么?
實際上,在整個過程中,隨著時間的推移,算法被不斷優(yōu)化,并且訓練樣本和測試樣本中的誤差正在減少。但是,如果學習了時間過程,則訓練集的誤差繼續(xù)減小,并且驗證集的誤差開始上升。它是。原因是該模型在訓練集上運行得更好!它已經(jīng)開始學習訓練集的噪音和不必要的細節(jié)。因此,為了找到正確的“擬合”,最好找到訓練誤差仍在下降的那個,并且測試誤差才開始上升。< ;; point”
3.機器學習和深度學習之間的區(qū)別
許多不認識的人可能只知道他們參與了這段關系。深度學習是機器學習,但事實上它遠不止于此。 … ..(這太模糊了),從大腦地圖中可以看出,事實上,機器學習就方法而言??梢杂泻芏喾N,例如:邏輯回歸,決策樹,樸素貝葉斯,線性回歸,SVM支持向量機等。它們都是機器學習,我們也看到底部有一個“神經(jīng)網(wǎng)絡”。他們的隊伍屬于上面列出的相同類別。
神經(jīng)網(wǎng)絡的概念可分為“淺層神經(jīng)網(wǎng)絡”和“深層神經(jīng)網(wǎng)絡”
“淺層神經(jīng)網(wǎng)絡中最經(jīng)典的網(wǎng)絡”是“BP前饋神經(jīng)網(wǎng)絡”
“深度神經(jīng)網(wǎng)絡”可以理解為我們所謂的“深度學習”,而深度神經(jīng)網(wǎng)絡則分為許多網(wǎng)絡結構,如DNN,CNN和RNN
。但是,這里應該注意深度和深度之間的差異不僅是“網(wǎng)絡層”之間的差異,更重要的是,與所有其他機器相比,“深度學習”(深度神經(jīng)網(wǎng)絡)是最強大的東西:/p>
他可以執(zhí)行數(shù)據(jù)的特征提取<預處理“。 (這節(jié)省了手動數(shù)據(jù)注釋的麻煩,并且可以提取矢量和空間矢量以獲得更多維度和復雜特征,便于后續(xù)處理)。這也是他有很多層的原因,因為額外的網(wǎng)絡層數(shù)用于執(zhí)行數(shù)據(jù)特征提取預處理
相信一步,結合上面的腦圖,我們可以區(qū)分“機器學習”和“深度學習”,真正的區(qū)別不是簡單的包容關系。
4.返回
個人覺得回歸作為理解機器學習過程的過程是對理解的一個很好的介紹。
所謂的“回歸”似乎非常深奧,但事實并非如此。我正在給栗子:
y=2x這個一元函數(shù),假設我們現(xiàn)在不知道他的斜率w=2,我給你5個數(shù)據(jù)y=2,4,6,8,10,相應的x是1,2,3,4,分別。你自動認為它們之間有2倍的對應關系嗎?是!你“自動假設他們有一定的關系,這個過程稱為“返回”;并且你假設它們的關系是“2次”,這是“線性回歸”。
所以回歸的定義(個人理解):我們看到很多事實或數(shù)據(jù),假設它們之間存在某種對應關系。機器學習中的回歸(監(jiān)督學習)是試圖讓計算機在大量數(shù)據(jù)之間找到這種對應關系,那么如何找到它呢?
讓我們首先假設一個關系:y=wx + b,其中w是權重,b是偏移量,w是1Xn矩陣向量,x是nX1的矩陣向量(這些概念沒有在數(shù)學上解釋,為什么x這不是一個實數(shù),而是一個矩陣。這是因為我們在實際數(shù)據(jù)中有超過N維和hellip。描述這個數(shù)據(jù)特征不僅僅是一維的。
現(xiàn)在我想判斷一個橙色的“好壞”,y代表“好壞”,它們都被標記了。 x是表示[大小,顏色,形狀]的三維矩陣向量。然后用公式代替:
y=w1X尺寸+ w2X顏色+ w3X形狀+ b(這里我們假設b為0)
然后,任務是找到適當?shù)膚1,w2和w3值,以準確描述橘子的質(zhì)量與大小,顏色和形狀之間的關系。那么你如何確定它是否合適?
由“損失函數(shù)”定義(此處未列出損失),Los的含義是將樣本中的所有x替換為wx + b中的“公式所假設的”(這次是w的值和b幾乎絕對不準確,然后值和真y值之間的差值就是損失函數(shù)Loss。那么損失越小,此時w和b的值越接近真“線性關系”。因此,我們最終機器學習的目標是求解w和b的相應值,使得損失更小(當然,無限接近0),之后,它是機器學習模型< ;; training end”!使用驗證集驗證擬合是否過度測試以驗證模型的泛化能力
當然,這里有幾點要解釋:
(1)這只是最簡單的機器學習板栗描述,側重于機器學習中回歸的基本思想
(2)我們在這里沒有說如何找到相應的w和b之間的映射關系,使得Loss最?。ɑ蚝细瘢?。后來我分享了“BP前饋神經(jīng)網(wǎng)絡的梯度下降”,將簡要介紹?;舅季S過程
(3)如果您分析的數(shù)據(jù)本身是非線性關系,并且您假設它們是線性的并且使用相應的模型進行訓練,那么結果必須是“欠擬合”(因此表示未適應) :你的想法不符合世界的現(xiàn)實…)
以上分享了一些關于機器學習的基本概念,后續(xù)不斷更新,希望大家走在AI的路上!
本文最初由@Free發(fā)布。未經(jīng)許可,禁止復制。
該地圖來自PEXELS,基于CC0協(xié)議
周一周五 8:30 - 18:00
客服QQ