文章詳情頁

基于python 等頻分箱qcut問題的解決

瀏覽：84日期：2022-08-04 15:07:14

在python 較新的版本中，pandas.qcut()這個函數中是有duplicates這個參數的，它能解決在等頻分箱中遇到的重復值過多引起報錯的問題；

在比較舊版本的python中，提供一下解決辦法：

import pandas as pd def pct_rank_qcut(series, n): ’’’ series：要分箱的列 n：箱子數 ’’’ edages = pd.series([i/n for i in range(n)] # 轉換成百分比 func = lambda x: (edages >= x).argmax() #函數：(edages >= x)返回fasle/true列表中第一次出現true的索引值 return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每個值對應的百分位數，最終返回對應的組數;rank()函數傳入的數據類型若為object，結果會有問題，因此進行了astype

補充拓展：Python數據離散化:等寬及等頻

在處理數據時，我們往往需要將連續性變量進行離散化，最常用的方式便是等寬離散化，等頻離散化，在此處我們討論離散化的概念，只給出在python中的實現以供參考

1. 等寬離散化

使用pandas中的cut()函數進行劃分

import numpy as npimport pandas as pd # Discretization: Equal Width ## Datas: Sample * Featuredef Discretization_EqualWidth(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) for i in range(FeatureNumber): DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1)) DisDatas[:, i] = DisOneFeature return DisDatas

2. 等頻離散化

pandas中有qcut()可以使用，但是邊界易出現重復值，如果為了刪除重復值設置 duplicates=‘drop’，則易出現于分片個數少于指定個數的問題，因此在此處不使用qcut()

import numpy as npimport pandas as pd # Discretization: Equal Frequency ## vector: single featuredef Rank_qcut(vector, K): quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values funBounder = lambda x: (quantile >= x).argmax() return vector.rank(pct=True).apply(funBounder) # Discretization: Equal Frequency ## Datas: Sample * Featuredef Discretization_EqualFrequency(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) w = [float(i) / K for i in range(K + 1)] for i in range(FeatureNumber): DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K) #print(DisOneFeature) DisDatas[:, i] = DisOneFeature return DisDatas

以上這篇基于python 等頻分箱qcut問題的解決就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：python剪切視頻與合并視頻的實現下一條：使用python 計算百分位數實現數據分箱代碼

相關文章：

1. 三道java新手入門面試題,通往自由的道路--鎖+Volatile2. AJAX實現省市縣三級聯動效果3. SpringBoot+SpringCache實現兩級緩存(Redis+Caffeine)4. ASP.NET MVC視圖頁使用jQuery傳遞異步數據的幾種方式詳解5. php中加密解密DES類的簡單使用方法示例6. php讀取xml中某個元素的內容(PHP5以上才支持)7. Java基于redis和mysql實現簡單的秒殺(附demo)8. 如何用python識別滑塊驗證碼中的缺口9. 關于HTML5的img標簽10. 關于JSP用戶登錄連接數據庫詳情

排行榜

					
					php中加密解密DES類的簡單使用方法示例
Java基于redis和mysql實現簡單的秒殺(附demo)
如何用python識別滑塊驗證碼中的缺口
AJAX實現省市縣三級聯動效果
SpringBoot+SpringCache實現兩級緩存(Redis+Caffeine)
php讀取xml中某個元素的內容(PHP5以上才支持)
ASP.NET MVC視圖頁使用jQuery傳遞異步數據的幾種方式詳解
三道java新手入門面試題,通往自由的道路--鎖+Volatile
HTML iframe標簽用法案例詳解
關于HTML5的img標簽
JS canvas實現畫板和簽字板功能