[技術分享] 數據可視化基礎—數據模型

 作者:新投云  發布于:2017-07-07  瀏覽數:
數據可視化基礎—數據模型

數據說白了就是一組可定性或可量化的值。隨著計算機存儲能力的大幅提高,人們對于數據的關注與日俱增,「大數據」一詞近幾年來也被人們頻頻提及。而數據可視化的主要任務是將數據轉換為易于感知的圖形。因此,為了更準確更形象的表達數據,我們需要了解一些數據相關的概念。

數據模型與概念模型

為什么數據能代表我們的世界?要回答這個問題,我們得先了解數據和概念兩個模型。

數據模型是一組數字或符號的組合,它包含數據的定義、類型等,可以進行各類數學操作等。概念模型描述的是事物的語義或狀態行為等。

現實 => 概念 => 數據

現實世界可以用概念模型來描述,而概念模型又可以用數據模型來描述。經過兩層抽象,數據便可以描述我們的現實生活中的方方面面。

數據類型

一個東西具體歸為哪一類,取決于我們用什么標準劃分,數據亦然。

從數據在計算機中的存儲可分為浮點數、整數、字符等;從關系模型的角度分,數據又可以分為實體和關系兩類;從數據的結構來分,可以分為一維、二維、三維、多維、時間序列、空間序列、樹型、圖型等等[3];還有很多的分類方法,我們暫時先不討論,把關注點聚焦到和數據可視化有關的分類方法上。

按照測量標度來分,數據一般被分為四類:類別型有序型區間型比值型

  • 類別型數據用于區分事物。例如,人可以分為男女,水果能分為蘋果香蕉等。
  • 有序型用來表示對象間的順序關系。例如,我們的身高可以從矮到高,學生的成績可以從低到高排列等。
  • 區間型用于對象間的定量比較。例如,身高 160cm 與身高 170cm 相差 10cm,而 170cm 與 180cm 也相差 10cm,它們倆的差值是相等的。由此可見,區間型數據基于任意的起始點,所以它只能衡量對象間的相對差別。
  • 比值型用于比較數值間的比例關系。例如,體重 80kg 是體重 40kg 的兩倍。

不同的數據類型適用于不同的操作[1]:

數據類型 操作 集合操作 統計操作
類別型 =、≠ 互換元素位置 類別、模式、列聯相關
有序型 =、≠、>、< 計算元素單調遞增(減) 中值、百分位數
區間型 =、≠、>、<、+、- 元素間線性加(減) 平均值、標準方差、等級相關、積差相關
比值型 =、≠、>、<、+、-、×、÷ 元素間相似度 變異系數

不過,在數據可視化中,我們通常不特別區分區間型和比值型,將其統稱為數值型。進而可將數據類型進一步精簡為三種:類別型有序型數值型。具體為什么要分為這三類,我相信你看完下一篇視覺編碼之后會完全明白。

例子

說了那么多,都比較抽象,不如直接來看個例子。下面是一個簡單的數據表,每一行通常稱作一條記錄,每一列稱作一個字段,共有幾個字段,則通常就說這份數據有幾個維度

id 類型 款式 尺碼 銷量 年增長
1 男款 上衣 L 50 10%
2 女款 上衣 S 35 5%
3 女款 褲子 M 40 20%
4 男款 上衣 XL 30 15%

對照我們上文的概念,不難判斷出上表中:

  • 類型、款式為類別型數據;
  • id、尺碼為有序型數據;
  • 銷量和年增長為數值型數據。

總結

至此,其實本文的任務就已經完成了。通篇傳遞的最重要的知識就是數據可視化中的三大數據類型。

相關文章

三期必中一期平特肖