10个建议提高你的python数据分析技巧

在编程的世界里,经常一些小小的建议或者帮助就可以起到很大的作用。
比如说有个快捷键或者一个包简单应用就可以起到简化大量工作,达到事半功倍的效果,这里我就介绍几种我经常用到的小技巧。

1. pandas dataframe的pandas_profiling函数查看数据情况

在分析数据前,了解我们的数据是数据分析里面很重要的一个环节,虽然在pandas里面有一些像df.describe,df.info()函数虽然起到了一定的查看数据的功能。但是对于较大的数据和比较复杂的功能他们就不再提供了,而pandas_profiling里面的profile_report函数却可以得到比较详细的数据情况。
《10个建议提高你的python数据分析技巧》

包的安装


pip install pandas-profiling
#或者
conda install -c anaconda pandas-profiling

包的使用

使用非常简单,一条命令就可以了


import pandas as pd
import pandas_profiling

df=pd.read_csv("train.csv")
df.profile_report()

《10个建议提高你的python数据分析技巧》
同样的,结果还可以导出为html


html = df.profile_report(title='titanic_Profiling_Report')
html.to_file(outputfile="titanic_Profiling_Report.html")

《10个建议提高你的python数据分析技巧》

2. pandas可交互式绘图包cufflinks

在pandas里面已经有内置的plot绘图工具,但是他不是可交互的,那么有没有一个简单使用却能够达到可交互式的dataframe绘图工具呢,答案就是cufflinks包。

安装cufflinks


pip install plotly #前置包
pip install cufflinks

cufflinks的使用


##导入包
import pandas as pd
#cufflinks离线模式
import cufflinks as cf
import plotly.offline
cf.go_offline()
cf.set_config_file(offline=False, world_readable=True)

##开始绘图了,一条命令
df=pd.read_csv("train.csv")
df.iplot()

《10个建议提高你的python数据分析技巧》
《10个建议提高你的python数据分析技巧》
这里附上内置的plot的比较
左边是cufflinks的交互式图,右边是pandas内置的plot绘制的静态图片。

3. 善用魔法函数

在jupyter notebook里面,提供了很多魔法函数。在数据分析中,使用这些函数将会非常方便。使用lsmagic可以查看所有魔法函数。
《10个建议提高你的python数据分析技巧》
魔术方法主要有两种形式,一种是行内的,以%开头
另一种是cell内的,以%%开头

首先我们来看在数据分析中使用较多的魔术方法把

% pastebin

pastebin可以将我们的代码保存到公共的服务器上(相当于不要登录的百度网盘,就是数据不能太大),如果我们要分享代码给别人,使用函数并把返回的url给别人就可以看到了。
比如我们有个jupyter notebook文件叫做prfile.ipynb,使用%pastebin prfile.ipynb就可以看到分享的文件了。
《10个建议提高你的python数据分析技巧》

%matplotlib notebook

在jupyter notebook中,%matplotlib inline是静态的,而%matplotlib notebook是动态的,可以调节图片大小等。查看效果

《10个建议提高你的python数据分析技巧》

%run

%run 可以直接运行python文件而不用另开一个终端,实在是方便。


%run file.py

%%writefile

这里可以看到两个%,是针对一个cell的,函数将会把cell里面的所有代码写入到一个文件里面
《10个建议提高你的python数据分析技巧》

%%latex

这是一个绘制数学公式的函数。
《10个建议提高你的python数据分析技巧》

4. 查找清除错误

%debug其实也是一个魔术函数,只是他有代码调试的作用,单独放在一栏,退出时使用q。如下图所示。

《10个建议提高你的python数据分析技巧》

5. 漂亮的print包

pprint是一个优化的print,在print字典或者json数据类型的时候格外的管用,这里来看一个例子。
《10个建议提高你的python数据分析技巧》

6. 注释标签cell的突出显示

在jupyter notebook中,如果需要强调某个注释代码或者片段的时候,可以用不同颜色强调,显示信息,错误,警告等。

蓝色的信息

《10个建议提高你的python数据分析技巧》

黄色的警告

《10个建议提高你的python数据分析技巧》

绿色的成功

《10个建议提高你的python数据分析技巧》

红色的危险

《10个建议提高你的python数据分析技巧》

7. 打印一个cell中的所有输出

一般情况下,同一个cell中的输出只会显示最后的输出结果,如果需要显示所有结果的话怎么办呢。

《10个建议提高你的python数据分析技巧》

需要调用ipython.core里面的InteractiveShell。看图片

《10个建议提高你的python数据分析技巧》

8.使用i参数运行python脚本

一般情况下,要运行hello.py,我们都是使用python heelo.py运行代码,这是如果代码出错的话就不知道错在哪里了,如果使用-i参数的话就可以查看环境当中的
个参数情况,就可以很方便的调试修改python代码了。

《10个建议提高你的python数据分析技巧》

9. 自动注释代码

选中需要注释的代码,按下Ctrl + /就可以注释掉代码了。如果去除注释,再按一下就好了。
《10个建议提高你的python数据分析技巧》

10. 返回取消操作

如果一不小心删除了cell中的部分内容,按下ctr+z就可以取消操作了,但是如果删除了整个的cell呢,这时ESC+Z就派上用场了。

《10个建议提高你的python数据分析技巧》

总结

这篇文章中,总结了一些jupyter notebook中pyhton使用中的小知识点,希望可以对大家有帮助,提高编程能力,缩短编程时间。人生苦短,快用python!!!

点赞