鲜活的数据

概述

鲜活的数据——数据可视化指南是一本数据可视化的入门读物,读完本书能够了解到数据可视化的基本流程,常用工具以及一些数据可视化的基本应用案例。本书作者 Nathan Yau 是数据可视化博客 Flowing Data 的维护者。本书很多案例便是出自本网站。

内容简介

本书内容相当简洁易懂,即使没有编程基础也能读懂个 80~90% 。本书作者是统计学出生,实践中在纽约时报担任图形编辑,所以作者更多的论述是从数据可视化的目的角度出发,涉及到的技术相对较少。难能可贵的一点是本书在保持简洁易懂的同时,还勾勒出了数据可视化的基本框架,为进一步学习数据可视化提供了线索。

数据无论是在日常交谈,还是在正式的论述中都是最为雄健的论据之一。数据可视化是让数据变得更有说服力的技术手段之一。回想过往见过的幻灯片,不难想象直方图对比,要比表格对比更加生动易懂。如果用更为正规的语言来定义数据可视化,那么在我看来:数据可视化是让数据以图形化传递信息的手段。

在最初可以通过手工绘制图形来实现,然而借助于现代软件工具,我们可以进行更好也更为复杂的可视化设计,按照可视化工具的使用方法可以将其分为:

  • 开箱即用可视化工具

    • Microsoft Excel
    • Google Spreadsheets
    • Many Eyes
    • Tableau Software
  • 编程工具

    • Python
    • PHP
    • Processing
    • Flash, ActionScript
    • HTML, JavaScript, CSS
    • R
    • Matlab

以上提到的两种数据可视化工具都是数据向图形转化的工具,但在可视化实践中还需要对图形进行操作,此时我们还需要一些图形工具来对图像做简单的编辑,常见的图形工具较多,例如:Adobe Illustrator, Inkscape。另外在可视化地理数据时还需要利用一些常用的地理绘图工具,如:Google, Yahoo!, Microsoft Map; ArcGis, Polymaps, R 等。

在数据可视化中有几类较为典型的可视化问题,主要包括:时间趋势的可视化问题、比例的可视化、数据关联的可视化、数据差异可视化、空间关系可视化。

在数据可视化中,数据随着时间的变动是最为常见的应用之一,离散数据的时间趋势的可视化最为常用的工具是柱形图,以及散点图。对于连续的数据,采用曲线拟合的方式进行可视化表现力会更强,当然,这就需要对数据做出假设,另外还需要确定目标函数才能确定曲线拟合方式。

比例数据的可视化更侧重数据内部的比较,即在图中需要突出不同部分的数据比例。饼图是最为常见的比例数据可视化工具,在面对带有时间的比例数据时还可以采用堆叠柱形图,对于这个名词大家可能不那么熟悉,可以参看 堆叠柱形图

数据关系的可视化是数据可视化中最具技巧性的部分,在本书中没有提到太多的关于数据处理的知识。其实在数据可视化的前一步数据整理与分析是最费功夫的,关联关系数据的可视化需要通过数据分析技术来分析数据之间的关联,在已知关联的基础上再确定数据可视化方法。不同的数据关系需要采用不同的可视化图标来表现。

通过数据来体现不同个体之间的差异是数据最为有用的功能之一。不管是常见的股票指数还是球员统计数据都是数据评价作用的体现。在可视化中体现数据差异的技巧有很多,可以通过不同的颜色,形状等常用的可视化元素来体现数据的差异。本章中还提到一个特别有意思的工具:相面术,该方法是通过不同的卡通人脸来表现数据的差异,极为有趣。

最后本书还提高了空间数据的可视化,很遗憾,这里只提到了二维空间数据的可视化,对更为复杂的三维空间数据的可视化并没有涉猎。最为常见的空间数据可视化就是地理数据的可视化,该类数据的可视化需要借助上文中提到的地理绘图工具。

结论

总的来说,本书内容浅显易懂,覆盖面较为广泛,并且将数据可视化以一种有趣的方式呈现,作为入门读物是较为合适的。数据可视化是技术手段,无论何种技术手段都需要为最终的目的服务,所以,在进行数据可视化时,首先需要明确的是数据可视化的目标,只有在确定目标后,可视化手段才能表现的更为 Powerful。

Flowing Data