商业日报网

滚动新闻:
·斩获颇丰!华谊兄弟率先披露 ·广州白云机场等重要口岸开启广交会专用通道 ·光伏业务快速发展,天合光能前三季度净利增超89% ·广州消费品工业兴旺化妆品工业年产值逾千亿元 ·如何看A股10月开门走势?多项数据传递出积极信号 ·汽车和汽车零部件行业周报:新势力销量高增,关注三季报优质个股-23100 ·研报掘金丨华鑫证券:天岳先进临港厂产能加速释放,在手订单充足 ·金价涨势暂歇!2023年10月8日各大金店黄金价格多少钱一克? ·物流运行迎来“金九”9月份中国物流业景气指数达到53.5% ·山东泰安公积金新政:认房不认贷,无房职工可提取公积金付房租 ·金盘科技“绿色低碳高效节能新能源装备和新材料智能制造产业园”正式开工 ·中国男篮已无优势可言,“大手术”迫在眉睫 ·达来:扎根基层的环保人 ·百家机构调研股出炉,明星基金节后建仓潜力股曝光!芯片博士“最后的爱股”曝 ·中国中免H股遭摩根大通减持A股机构持股数量大幅减少 ·10月7日-珠三角谷物行情快讯 ·终结九连跌黄金周黄金遭遇“黄金劫” ·乡村行·看振兴小酸枣大产业科技助力山西临县枣产业高质量发展 ·云南铁路中秋国庆假期发送旅客373万人次刷新单日客流纪录 ·福州机场“双节”假期出入境客流同比增长481% 

熟练掌握可以极大地提高数据分析与挖掘的效率

来源:TechWeb    发布时间:2021-12-26 20:48:35   阅读量:18928   

这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用,熟练掌握可以极大地提高数据分析与挖掘的效率

熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

importpandasaspddf=pd.read_csvdf.head 创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列,例如

df=+df/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的,那么lambda方法就很多必要被运用到了,我们先来定义一个函数方法

defcustom_rating:if'Thriller'ingenre:returnmin(10,rating+1)elif'Comedy'ingenre:returnmax(0,rating—1)elif'Drama'ingenre:returnmax(5,rating—1)else:returnrating

我们对于不同类别的电影采用了不同方式的评分方法,例如对于惊悚片,评分的方法则是在原来的评分+1和10分当中取一个最小的,而对于喜剧类别的电影,则是在0分和原来的评分—1当中取一个最大的,然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df=df.apply(lambdax:custom_rating(x('Genre'),x('Rating')),axis=1)

我们这里需要说明一下axis参数的作用,其中axis=1代表跨列而axis=0代表跨行,如下图所示

筛选数据

在pandas当中筛选数据相对来说比较容易,可以用到amp,

#单个条件,评分大于5分的dfdf_gt_5=dfgt,5)#多个条件:AND—同时满足评分高于5分并且投票大于100000的And_df=df(gt,5)amp,(df('Votes')gt,100000))#多个条件:OR—满足评分高于5分或者投票大于100000的Or_df=df(gt,5)

这些都是非常简单并且是常见的例子,但是要是我们想要筛选出电影的影名长度大于5的部分,要是也采用上面的方式就会报错

df.split(""))gt,=5)

output

AttributeError:'Series'objecthasnoattribute'split'

这里我们还是采用apply和lambda相结合,来实现上面的功能

#创建一个新的列来存储每一影片名的长度df=df.apply(lambdax:len(x('Title').split("")),axis=1)#筛选出影片名长度大于5的部分new_df=df(dfgt,=5)

当然要是大家觉得上面的方法有点繁琐的话,也可以一步到位

new_df=df.split(""))gt,=5,axis=1))

例如我们想要筛选出那些影片的票房低于当年平均水平的数据,可以这么来做。

我们先要对每年票房的的平均值做一个归总,代码如下

year_revenue_dict=df.groupby).agg('Revenue(Millions)':np.mean).to_dict('Revenue(Millions)')

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况,返回的是布尔值

defbool_provider:returnrevenuelt,year_revenue_dict(year)

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df=df'),x('Year')),axis=1))

我们筛选数据的时候,主要是用.loc方法,它同时也可以和lambda方法联用,例如我们想要筛选出评分在5—8分之间的电影以及它们的票房,代码如下

df.locgt,5)amp,(x("Rating")lt,8))(("Title","Revenue(Millions)")) 转变指定列的数据类型

通常我们转变指定列的数据类型,都是调用astype方法来实现的,例如我们将Price这一列的数据类型转变成整型的数据,代码如下

df.astype('int')

会出现如下所示的报错信息

ValueError:invalidliteralforintwithbase10:'12,000'

因此当出现类似12,000的数据的时候,调用astype方法实现数据类型转换就会报错,因此我们还需要将到apply和lambda结合进行数据的清洗,代码如下

df=df.apply(lambdax:int(x.replace(',','')),axis=1) 方法调用过程的可视化

有时候我们在处理数据集比较大的时候,调用函数方法需要比较长的时间,这个时候就需要有一个要是有一个进度条,时时刻刻向我们展示数据处理的进度,就会直观很多了。本次认证的Pandar128集成了激光通道收发,上下双主控,高速信号分析,无线供电,无线通信,主动发光检测,主动接收检测等128个模块。建立完善的安全机制,实现符合标准要求的安全覆盖,需要克服许多技术和工程挑战。。

这里用到的是tqdm模块,我们将其导入进来

fromtqdmimporttqdm,tqdm_notebooktqdm_notebook.pandas

然后将apply方法替换成progress_apply即可,代码如下

df=df.progress_apply(lambdax:custom_rating(x('Genre'),x('Rating')),axis=1)

output

当lambda方法遇到if—else

当然我们也可以将if—else运用在lambda自定义函数当中,代码如下

Bigger=lambdax,y:xifelseyBigger(2,10)

output

10

当然很多时候我们可能有多组if—else,这样写起来就有点麻烦了,代码如下

df.apply(lambdax:"低分电影"ifxlt,3else("中等电影"ifxgt,=3andxlt,5else("高分电影"ifxgt,=8else"值得观看")))

看上去稍微有点凌乱了,这个时候,小编这里到还是推荐大家自定义函数,然后通过apply和lambda方法搭配使用

【免责声明】 凡本站未注明来源为(商业日报网)的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。

热文推荐

首页 | 焦点| 业界| 财经| 企业| 消费| 行业| 股票| 视窗| 商业| 经贸| 产业| 资讯

Copyright @ 2010- 备案号:鄂ICP备2021013412号-3 网站地图