| 開放資料儲存分析平台 Hadoop

大數據特點:數據量大、增長迅速、變化多樣性
大數據指的是資料的大小和複雜度使得無法藉由常用技術以合理的成本並在可接受的時限內對其進行搜集、管理和處理的資料。

  • 大數據量(Volume)

海量的話單資訊 (語音話單、短信話單、GPRS話單) 海量信令資訊 (使用者位置資訊、開關機資訊、異常斷線資訊) 互聯網閘道資訊 (URL資訊、查詢關鍵字) 社交媒體、M2M資料、使用者行為內容

  • 增長迅速(Velocity)

信令資料、話單資訊、互聯網資料增長速度很快業務上需要能夠對資料即時訪問和處理

  • 多樣性(Variety)

短信文本資訊 Call Center投訴信息 WAP日誌/WEB日誌使用者行為內容營業廳影像或票據等

大數據給傳統分析平臺帶來巨大挑戰:

  • 數據越來越多,超越了I/O極限 
  • 性能低下,查詢時間以數小時甚至數天計 
  • 基於資料概要的統計分析,無法滿足深度挖掘分析要求 
  • 批次處理方式進行載入和匯總,無法滿足時效性要求 
  • 究其根源,在於架構陳舊,跟不上時代的發展

 
我們需要針對大量非結構化資料儲存與批次資料分析平台

Hadoop 是 Apache 軟體基金會(Apache Software Foundation)因應 Cloud Computing 與 Big Data 發展所開發出來的技術,Hadoop 使用 Java 撰寫,並免費開放原始碼,在此背景之下,就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

Apache Hadoop是一款支持數據密集型分佈式應用並以Apache 2.0許可協議發佈的開源軟體框架。它支持在商品硬體構建的大型集群上運行的應用程序。Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成。

Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程範式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行。

此外,Hadoop還提供了分佈式文件系統,用以存儲所有計算節點的數據,這為整個集群帶來了非常高的帶寬。

MapReduce和分佈式文件系統的設計,使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算的電腦和PB級的數據。

現在普遍認為整個Apache Hadoop「平台」包括Hadoop內核、MapReduce、Hadoop分佈式文件系統 (HDFS)以及一些相關項目,有Apache Hive和Apache HBase等等。
  
我們提供的專業服務:
 ■需求訪談、系統規畫、環境建置 ■相關服務安裝、叢集設定 ■資料分析

藉由巨量資訊分析提供商業趨勢、研究品質、提高醫療和研發、打擊犯罪、股票分析、理解客戶、滿足客戶服務需求、業務流程優化、提高體育成績、優化機器和設備性能、優化機器和設備性能、金融交易….. 。

  • 金融業/客戶關係管理、精準行銷、風險管理、優化服務。
  • 製造業/物料品質分析、設備異常監控與預測、零件生命週期預測、製程監控分析、良率保固分析。
  •  證券業/投資人交易行為分析、市場異常資訊分析、交易量分析。
  • 醫療業/病理分析、疾病預測。
  • 工業領域/加速產品創新、工業物聯網生產線的大數據應用、產品銷售預測與需求管理、產品質量管理與分析、產品故障診斷與預測、工業供應鏈的分析和優化、生產計劃與排程、工業污染與環保檢測。
     
1. 產業情勢評估
2. 針對性推薦
3. 針對性預測
4. 行為解讀
5. 決策最佳化