如何解决基于python等频分箱qcut的问题
小编给大家分享一下如何解决基于python等频分箱qcut的问题,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!
在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;
在比较旧版本的python中,提供一下解决办法:
importpandasaspd defpct_rank_qcut(series,n): ''' series:要分箱的列 n:箱子数 ''' edages=pd.series([i/nforiinrange(n)]#转换成百分比 func=lambdax:(edages>=x).argmax()#函数:(edages>=x)返回fasle/true列表中第一次出现true的索引值 returnseries.rank(pct=1).astype(float).apply(func)#series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype
补充拓展:Python数据离散化:等宽及等频
在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考
1. 等宽离散化
使用pandas中的cut()函数进行划分
importnumpyasnp importpandasaspd #Discretization:EqualWidth# #Datas:Sample*Feature defDiscretization_EqualWidth(K,Datas,FeatureNumber): DisDatas=np.zeros_like(Datas) foriinrange(FeatureNumber): DisOneFeature=pd.cut(Datas[:,i],K,labels=range(1,K+1)) DisDatas[:,i]=DisOneFeature returnDisDatas
2. 等频离散化
pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop',则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()
importnumpyasnp importpandasaspd #Discretization:EqualFrequency# #vector:singlefeature defRank_qcut(vector,K): quantile=np.array([float(i)/Kforiinrange(K+1)])#Quantile:K+1values funBounder=lambdax:(quantile>=x).argmax() returnvector.rank(pct=True).apply(funBounder) #Discretization:EqualFrequency# #Datas:Sample*Feature defDiscretization_EqualFrequency(K,Datas,FeatureNumber): DisDatas=np.zeros_like(Datas) w=[float(i)/Kforiinrange(K+1)] foriinrange(FeatureNumber): DisOneFeature=Rank_qcut(pd.Series(Datas[:,i]),K) #print(DisOneFeature) DisDatas[:,i]=DisOneFeature returnDisDatas
看完了这篇文章,相信你对“如何解决基于python等频分箱qcut的问题”有了一定的了解,如果想了解更多相关知识,欢迎关注恰卡编程网行业资讯频道,感谢各位的阅读!
推荐阅读
-
Python多线程抓取代理服务器
Python作为一门功能强大的脚本语言来说,经常被用来写爬虫程序,下面是Python爬虫多线程抓取代理服务器。年前是用//lin...
-
Python中怎么动态声明变量赋值
这篇文章将为大家详细讲解有关Python中怎么动态声明变量赋值,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文...
-
python中变量的存储原理是什么
本篇文章给大家分享的是有关python中变量的存储原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有...
-
Python中怎么引用传递变量赋值
这篇文章将为大家详细讲解有关Python中怎么引用传递变量赋值,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文...
-
python中怎么获取程序执行文件路径
python中怎么获取程序执行文件路径,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的...
-
Python中如何获取文件系统的使用率
Python中如何获取文件系统的使用率,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴...
-
Python中怎么获取文件的创建和修改时间
这篇文章将为大家详细讲解有关Python中怎么获取文件的创建和修改时间,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读...
-
python中怎么获取依赖包
今天就跟大家聊聊有关python中怎么获取依赖包,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据...
-
python怎么实现批量文件加密功能
这篇文章主要介绍“python怎么实现批量文件加密功能”,在日常操作中,相信很多人在python怎么实现批量文件加密功能问题上存在...
-
python中怎么实现threading线程同步
小编给大家分享一下python中怎么实现threading线程同步,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!...