数据探索

一般的数据可视化方法进行分布观察有这些:

  1. 散点图
  2. 箱型图
  3. 核密度图

这里着重以下方法:

  1. pairplot

    1
    2
    #  pairplot显示不同特征之间的关系 
    sns.pairplot(iris.drop("Id", axis=1), hue="Species", size=3, diag_kind="kde")

  2. pandas箱型图

    1
    2
    # 用Pandas 快速做出每个特征在不同种类下的箱线图  
    iris.drop("Id", axis=1).boxplot(by="Species", figsize=(12, 6))

  3. 调和曲线图

    1
    2
    3
    4
    # 他是将高维的点 化为二维的曲线,曲线是一条傅里叶函数的样子,参数项为不同的特征值,臆想出来了自变量t,这样每个点都是一条曲线
    # 画图的函数在下面,我们会发现相同种类的线总是缠绵在一起,可以和聚类混在一起噢,事实上他们与欧氏距离是有关系的
    from pandas.tools.plotting import andrews_curves
    andrews_curves(iris.drop("Id", axis=1), "Species")

  4. 轮廓图

    1
    2
    3
    # 轮廓图也是看高维数据的一种方法,将不同的特征放在横坐标,然后将各点的特征值放在纵坐标就可以了  
    from pandas.tools.plotting import parallel_coordinates
    parallel_coordinates(iris.drop("Id", axis=1), "Species")

  5. radviz

    1
    2
    3
    # 这也是一种将高维点表现在二维平面的方法,具体作图方法应该在上面的网址上应该有  
    from pandas.tools.plotting import radviz
    radviz(iris.drop("Id", axis=1), "Species")

References

Python Data Visualizations

基于Python的数据可视化 matplotlib seaborn pandas