<-- Home |--python |--plan

Pandas plan

Pandas写作计划

每次使用Pandas都会有一些新的感悟,每次都勉勉强强地完成了任务,总是感觉没有那种自己很好的感觉,到底是什么感觉才是我觉得够了的感觉,行了的感觉?

还是应该好好找找这种感觉。

链式调用

首先想写一个链式调用的文章,最近在分析数据时,感觉链式调用真的很好用,把数据处理建模成一个管道的感觉很自然。

 1import pandas as pd
 2
 3(
 4    pd.read_csv('data.csv')
 5    .dropna()
 6    .groupby('name')
 7    .sum()
 8    .sort_values('age')
 9    # .plot(kind='bar')
10)

类似于这样的,因为随时能够运行一部分,所以很容易调试,而且代码的逻辑也很清晰,这是一个很有力的工具。

数据分析的流程

要通过几个例子,再进一步对自己开展数据分析的流程进行一个更好的总结。

大概的初步观点是,不同类型的数据分析目标,会有不同的流程。虽然大概的可以写出一个通用的数据导入、数据清洗、数据分析、数据可视化的流程,但是在实际的工作中,会有很多细节的不同。

最大的一个点可能就是分组分析,这个部分我目前还没有搞得很懂。

数据索引的部分其实也是很有意思,我专门写过一个Matlab的数据索引文章,Pandas提供的索引工具与Matlab的不尽相同,值得好好梳理一下。

数据可视化

可视化是最重要的一个环节,因为决定最终报告的质量。是不是也要对可视化的部分进行一个理解,有没有什么理论基础、方法论之类的?

是不是还要继续回到UX/UI的基础上,再深入一下?

或者专门会有一个数据报表的知识?

总结

  1. 结合实际的数据分析任务,写一个链式调用的文章;
  2. 再根据数据分析的流程写一系列文章;
  3. 数据可视化的部分,也要写一些文章。

文章标签

|-->pandas |-->python |-->data-science |-->data-analysis |-->plan


GitHub