短視頻系統及大數據推薦機制

?三個商業維度決定了短視頻已經成為主流，分別為 網絡流量趨勢，信息高效傳達，變現價值能力 。這三個方面的分別為平臺，用戶，創作者滿足了各取所需的形態，這是實際價值的存在點。

?網絡流量趨勢顧名思義，則是網絡平臺的唯壹KPI。網絡平臺擁有越多的活躍用戶就越證明該平臺的成功，每壹個網絡巨頭無壹例外都是利用自身的流量，獲取市場的廣告效益，所以平臺只有擁有流量才會成為具有實際價值的平臺。

?信息高效傳達則是針對用戶而言，能夠在網絡平臺上獲取到自己需要的信息更高效的方式。無論是娛樂，財經，體育，知識，消費各方面的視頻內容都是對網絡1.0時代以圖文為主的博客，新聞知識獲取渠道的升級。視頻的每壹幀都可能涵蓋成百上千字的文字內容，在這個數據爆炸的時代，提高獲取內容成本是對用戶的壹次體驗升級。

?變現價值能力，這是對於創作者的努力創造優質內容的原動力。這三者的高效配合形成壹個正向循環齒輪，這樣蛋糕就會越做越大。

?我個人認為壹個優秀的短視頻平臺需要具備以下3個方面：

? (1).視頻的實時性，熱點性，個性化推薦

? (2).檢索提取幹貨信息，作為更高效的搜索引擎

? (3).有娛樂性，實用學習性，傳播性

? 2020年8月份科技部明確指出將基於數據分析的個性化服務推送服務技術列為限制出口名單，這必然會讓大家聯想到最近抖音海外版Tiktok的出售風波。因為推薦算法壹般是根據海量app用戶信息經過核心算法服務進行建模計算出來的。這裏面包含大量用戶隱私數據，核心算法技術積累，所以在目前初步人工智能時代，算法的重要程度在日益加重。

?說到推薦算法則不得不說到機器學習，在抖音熱門推薦區推薦的視頻都是通過對每個用戶進行建模後根據權重進行個性化推送的，平臺也會通過計算點贊概率影響排序順序，然後推薦給用戶。用數學來表示的話：

針對已知用戶，視頻和環境和未知行為，比如點擊去預測它產生的概率，這就是推薦算法的核心。

? (1).特征X：用戶，視頻，環境

? 比如用戶年齡就可以作為特征，根據不同年齡進行特定內容推送，越多的特征可以幫助更好的幫助我們去給他們挑選感興趣的內容。更多的用戶特征也可以從用戶的手機型號，來自哪裏，收藏內容標簽，觀看停留時間，興趣標簽；當然也可以從視頻內容獲取特征信息，視頻標簽，用戶評論信息提取，視頻類別，視頻的平均點擊率，彈幕內容，評論量，轉發量；用戶在什麽樣的環境中看到的視頻，白天或者晚上，使用手機看到的還是電腦看到的。很多做推薦算法的工程師會花很多時間用在制作壹些特征的工程，用機器去實現用戶的標簽或者視頻內容的理解，這部分是構成了推薦算法很重要的壹部分。等到我們的特征準備完畢，就可以作為我們的輸入去送給我們的模型，也就是Fx函數。

? (2).構建模型F（y|x）

? 目前主流市場上有2種模型，第壹種是基於樹的模型，就比如說決策樹。在實際的推薦算法工程裏，這個決策樹模型可以制作得非常深，並且根據板塊門類的劃分也可能不止壹顆樹，可能是很多樹構成，相關樹之間通過關聯主鍵進行連接，壹起加權構成了壹個決策樹的森林，它們會合在壹起去做壹個推薦算法，模擬計算Fx函數。另壹種模型是基於神經網絡去做的壹些數據的擬合。（模型見圖1）

? 第二種是基於人工神經網絡（Artificial Neural Networks）簡稱連接模型（Connection Model），它是壹種模仿動物神經網絡行為的特征，進行分布式並行星系處理的算法數學模型。這種網絡以考系統的復雜度，通過調整內部大量節點之間的相互關連的關系，從而達到處理信息的目的。神經網絡是壹種數據挖掘的方法，不僅可以使用與決策樹大體相同的方式預測類別或分類，而且還能更好的確定屬性之間的關聯強度（模型見圖2）。通常構建神經網絡模型個人比較推薦RapidMiner，通過Excel或者DB導入各類不同屬性的分類數據，比如醫院裏病人的血脂，體重，體溫等各類指標數據，然後進行流程連接並設置條件，最終得出神經網絡數據結果。

? (3).制定目標Y

? 需要預測的位置行為Y指的就是推薦權重，通過壹系列數據計算得出這類視頻是否適合推薦給用戶觀看。

這也是很多短視頻平臺，壹直以綜合互動量為考核內容創作的最終指標。

? 機器學習算法其實就是普通算法的進化版。通過自動學習數據規律，讓妳的程序變得更聰明些。這裏舉壹個生活中的案例說明這壹點，某天妳去買芒果，小販攤了滿滿壹車芒果，妳壹個個選好，拿給小販稱重，然後論斤付錢。自然，妳的目標是那些最甜最成熟的芒果，那怎麽選呢？妳想起來，外婆說過，明黃色的比淡黃色的甜。妳就設了條標準：只選明黃色的芒果。於是按顏色挑好、付錢、回家。

? 機器學習算法其實就是普通算法的進化版。通過自動學習數據規律，讓程序變得更聰明些。那麽如何讓程序變得更聰明壹些喃？則需要利用算法進行數據訓練並在過程中對數據預測結果集進行效驗。

根據數據類型的不同，對壹個問題的建模有不同的方式。在機器學習或者人工智能領域，人們首先會考慮算法的學習方式。在機器學習領域，有幾種主要的學習方式。將算法按照學習方式分類是壹個不錯的想法，這樣可以讓人們在建模和算法選擇的時候考慮能根據輸入數據來選擇最合適的算法來獲得最好的結果。

在監督式學習下，輸入數據被稱為“訓練數據”，每組訓練數據有壹個明確的標識或結果，如對防垃圾郵件系統中“垃圾郵件”“非垃圾郵件”，對手寫數字識別中的“1“，”2“，”3“，”4“等。在建立預測模型的時候，監督式學習建立壹個學習過程，將預測結果與“訓練數據”的實際結果進行比較，不斷的調整預測模型，直到模型的預測結果達到壹個預期的準確率。監督式學習的常見應用場景如分類問題和回歸問題。常見算法有邏輯回歸（Logistic Regression）和反向傳遞神經網絡（Back Propagation Neural Network）

在非監督式學習中，數據並不被特別標識，學習模型是為了推斷出數據的壹些內在結構。常見的應用場景包括關聯規則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。

在此學習方式下，輸入數據部分被標識，部分沒有被標識，這種學習模型可以用來進行預測，但是模型首先需要學習數據的內在結構以便合理的組織數據來進行預測。應用場景包括分類和回歸，算法包括壹些對常用監督式學習算法的延伸，這些算法首先試圖對未標識數據進行建模，在此基礎上再對標識的數據進行預測。如圖論推理算法（Graph Inference）或者拉普拉斯支持向量機（Laplacian SVM.）等。

在這種學習模式下，輸入數據作為對模型的反饋，不像監督模型那樣，輸入數據僅僅是作為壹個檢查模型對錯的方式，在強化學習下，輸入數據直接反饋到模型，模型必須對此立刻作出調整。常見的應用場景包括動態系統以及機器人控制等。常見算法包括Q-Learning以及時間差學習（Temporal difference learning）