这样做可以尽快地让你深入理解数据集。一旦有人给了你一批数据,或者给了你一个实时数据流的接口,你最开始应该做的事情就是找到其中有用的变量然后把它们的图像做出来。如果这批数据是基于时间的,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出它的分布图。如果这些特征每一个变量都具备,那就把它们都画出来吧。你可以用Python或R来作图,或者用Tableau和Excel。

它能让你像图形建模一样帮助你思考应该如何提出最适合的假设。数据的分布图和时间序列可以帮助你更好的去理解数据。


作者:Mike Dewar