揭秘騰訊大數據平臺與推薦應用架構
內容簡介:
- 騰訊的月活躍用戶8.3億
- 微信月活躍用戶4.4億
- QQ空間月活躍用戶6.5億
- 游戲月活躍用戶過億 </ul>
- 模型復雜:人腦有100多億個神經細胞,因此DNN的神經元和權重多
- 訓練數據多:大量訓練數據才能訓練出復雜模型
- ?微信語音識別:數萬個神經元,超過50,000,000參數,超過4,000,000,000樣本,單機訓練耗時以年計,流行的GPU卡需數周 </ul>
- ?更深更寬的網絡能獲得更好的結果
- ?以圖像識別為例,增加卷積層的filter數量,加大模型深度等,可獲得更好的模型質量 </ul>
- ?非線性模型:代價函數非凸,容易收斂到局部最優解
- ?敏感的超參數:模型結構、輸入數據處理方式、權重初始化方案、參數配置、激活函數選擇、權重優化方法等
- 數學基礎研究稍顯不足,倚重技巧和經驗 </ul>
- ?模型復雜,訓練數據多,計算量大
- ?需要支持大模型
- 訓練中超參數多,需要反復多次實驗 </ul>
如今騰訊的數據分析已經能做到始終“不落地”,即全部的實時處理。騰訊大數據平臺有如下核心模塊:TDW、TRC、TDBank、TPR和 Gaia。簡單來說,TDW用來做批量的離線計算,TRC負責做流式的實時計算,TPR負責精準推薦,TDBank則作為統一的數據采集入口,而底層的 Gaia則負責整個集群的資源調度和管理。李勇還特別強調了數據平臺體系化是應用基礎,數據應用商業化是價值導向。
數據平臺體系化是應用基礎,數據應用商業化是價值導向。
騰訊深度學習平臺的挑戰
深度神經網絡模型復雜,訓練數據多,計算量大
深度神經網絡需要支持大模型
?深度神經網絡訓練中超參數多,需要反復多次實驗
騰訊深度學習平臺Mariana
?騰訊有廣泛的深度學習應用需求,其挑戰如下
?Mariana騰訊深度學習平臺提供三個框架解決上述問題
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!