| 即時資料分析平台 Vertica

即時資料分析平台
大數據特點:數據量大、增長迅速、變化多樣性
大數據指的是資料的大小和複雜度使得無法通過常用技術以合理的成本並在可接受的時限內對其進行捕獲、管理和處理的資料。

  • 大數據量(Volume)
    海量的話單資訊(語音話單、短信話單、GPRS話單)海量信令資訊(使用者位置資訊、開關機資訊、異常斷線資訊)互聯網閘道資訊(URL資訊、查詢關鍵字) 社交媒體、M2M資料、使用者行為內容
  • 增長迅速(Velocity)
    信令資料、話單資訊、互聯網資料增長速度很快業務上需要能夠對資料即時訪問和處理
  • 多樣性(Variety)
    短信文本資訊 CallCenter投訴信息 WAP日誌/WEB日誌使用者行為內容營業廳影像或票據等
  • 價值(Value)
    單條低價值
  • 複雜(Complexity)
    非常難處理,包括上下文關聯、多格式匹配、多目標互動  

大數據給傳統分析平臺帶來巨大挑戰

  • 數據越來越多,超越了I/O極限
    ■性能低下,查詢時間以數小時甚至數天計
    ■基於資料概要的統計分析,無法滿足深度挖掘分析要求
    ■批處理方式進行載入和匯總,無法滿足時效性要求
    ■究其根源,在於架構陳舊,跟不上時代的發展
    OLTP的行式資料庫,在遇上大數據時,面臨嚴重的I/O瓶頸
    常見BI產品都用最高配備的硬體及私有設備進行I/O改良,這只是“頭痛醫頭”,無法根本解決

Vertica技術特點

  • 內建分散式R
    ◆R分散式運算擴展,並與Vertica無縫整合
    ◆內建常用資料採擷演算法,並可自行擴充
    ◎K-Means Clustering(K-Means聚類)–基於地理位置和購買方式等細分客戶 ◎Page Rank(佩奇排名)–識別有影響力的客戶 ◎K-Nearest Neighbor Classification(K-最近鄰分類) ◎Naïve Bayes Classification(樸素貝葉斯分類) ◎Classification and Regression Trees(分類與回歸樹)
  • 資料庫內運算
    ■資料庫內分析
    ■結構和半結構化融合分析

 

 

  • 我們提供的專業服務
    ■需求訪談、系統規畫、環境建置
    ■叢集設定、資料庫建立
    ■資料載入 ◆MS SQL ◆Oracle ◆Fixed-Width Format Data
    ■ETL工具整合
    ■資料庫設計優化
    ■效能調校
特色 效益
  1.高性能 Vertica 可以以 30%的 成本,實現 50 倍-1000 倍的性能提高
  2.高可擴展 隨時添加結點,動態資料再平衡
  3.高壓縮率 最佳的演算法對資料進行排序和壓縮,降低磁碟 I/O 消耗
  4.高安全性 支持明文指令、MD5 散列指令、LDAP、 GSS-encoded Kerberos tokens(RFC 1964)、Kerberos 5 等多種認證方式方式,支援 通過 SSL 增強安全性
  5.高相容性 支援 SQL-92/SQL-99/SQL-2003 標準,提供 ODBC、JDBC、ADO.NET 驅動程式,可以輕鬆與現有的 ETL 和報表工具