干貨 | 深信服行為感知系統核心技術大爆料
- 發布時間:2017-05-09 瀏覽次數:2787
超過一萬三千臺設備在線運行;
平臺內部組件零故障;
目前支持的用戶業務數據中,最大能達到每日20億條記錄,數據容量達到48TB,總計1200億條原始記錄,超過2000億條視圖記錄;
每間隔5分鐘同步更新超過50個數據倉庫,視圖總計50億條記錄;
統計查詢視圖做到秒級返回。
這就是深信服上網行為管理最新推出的行為感知系統,擁有強大的數據計算和服務能力。該系統基于上網行為管理的海量上網日志,對用戶行為特征進行深度建模分析,幫助企業發現用戶行為風險,一經問世就獲得大量用戶的好評。
那么這個被稱為“上網行為管理又一顛覆式創新”的數據分析平臺是如何實現高性能、高穩定性及可擴展能力的?它有哪些自主研發的核心技術?
整體架構
行為感知系統整體架構圖
深信服行為感知系統整體基于MapReduce計算框架,通過機器學習、圖計算等多種先進算法,對上網行為進行多種建模分析,最后通過直觀的應用商店和數據分析應用展現出來。今天我們就來解密其中幾個核心技術:MapReduce框架、MVCC機制、mdi索引等。
可擴展的大數據集:MapReduce框架
MapReduce是一個分布式并行計算的軟件框架,它的核心能力是將一項大任務,分解成多個互不干擾的并行的小任務,利用多CPU和多機器的計算資源提升性能。
區別于傳統數據庫順序執行的計算方式,MapReduce框架的優勢是可彈性擴展的計算能力。行為感知系統基于MapReduce,但做了許多獨特的創新:
1、 MapReduce組件化,針對不同業務可快速替換組件,改進和優化更容易;
2、 MapReduce組件對象常駐內存,用完即毀,無需狀態維護;
3、 采用C/C++實現,消除語言級別性能問題。
實現并發一致性:MVCC機制
MVCC機制即多版本并發控制機制,要解決的核心問題是并發一致性問題。舉例來說,如果有多個人要同時讀、寫數據庫中同一條記錄的時候,該如何保障數據的一致性?
傳統的解決思路是加一把鎖,讓不同的用戶串行化執行,一個人操作完下一個人才能才開始操作,但是這種方法無疑形成了一個瓶頸,無法滿足大量并行計算的要求。
MVCC機制通過多版本數據鏡像的方式,在保障數據一致性的前提下,滿足海量并發訪問的性能要求。行為感知系統不僅解決讀寫沖突問題,還具備如下特點:
1、數據修改/刪除實現存儲順序化,避免隨機更新,最大化利用磁盤IO性能;
2、數據按版本備份,并支持自動化恢復;
3、并行處理數據的批量更新。
毫秒級查詢:mdi索引
關系數據庫的索引技術被吐槽多年。例如MYSQL的innodb引擎和myisam引擎的索引,實際上只能針對小數據量(百萬級)起作用,如果數據上了千萬級索引就基本是個負擔。
更有甚者,一個表的索引字段一旦多起來不僅空間消耗大,影響建表速度,而且查詢的執行計劃有時還選擇了最差路徑,實在令人難以接受。
深信服獨立研究并實現了一個多維索引引擎(mdi)。通過關鍵字全文索引、位圖索引、行程索引幾個維度的索引組合提升索引的構建和查詢速度。在億級別數據下的搜索性能也能達到毫秒級返回。
正是基于對用戶需求的深刻洞察,才會有深信服行為感知系統的顛覆式創新。同時,行為感知系統通過不斷推出不同場景的數據分析應用,比如泄密追蹤分析、全網上網勢態、校園網貸分析等,為用戶持續挖掘數據價值,幫助組織洞悉行為風險,簡化運維管理。
深信服智安全專注做實用的安全,能夠幫助組織更有效地檢測并阻止安全威脅,降低IT業務創新過程中的各種風險,為您的網絡、數據和組織提供全面保護,讓每個組織的安全建設更有效、更簡單。
高清一区二区三区视频