人工手动筛选特征
创始人
2024-11-15 02:04:05
0

一、相关性分析

计算特征之间的相关性,并移除高度相关的特征(相关系数大于 0.95)

import pandas as pd   import numpy as np    # 创建一个示例数据框   data = {       'A': [1, 2, 3, 4, 5],       'B': [5, 4, 3, 2, 1],       'C': [1, 1, 2, 2, 3],       'D': [5, 3, 2, 4, 5],       'E': [2, 4, 6, 8, 10]   }    X = pd.DataFrame(data)   print("原始数据框:")   print(X)    # 计算相关矩阵   corr_matrix = X.corr().abs()   print("\n相关矩阵:")   print(corr_matrix)    # 获取上三角矩阵   upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))   print("\n上三角矩阵:")   print(upper)    # 找出任何相关系数大于 0.95 的列   to_drop = [column for column in upper.columns if any(upper[column] > 0.95)]   print("\n要移除的特征:")   print(to_drop)    # 移除高相关特征   X_reduced = X.drop(to_drop, axis=1)   print("\n去除高度相关后的数据框:")   print(X_reduced)

二、重要性分析

提取和展示模型中各特征的重要性,尤其是查看特征重要性为零的特征以及非零特征。

import pandas as pd   import lightgbm as lgb   from sklearn.datasets import load_breast_cancer   from sklearn.model_selection import train_test_split    # 加载数据集   data = load_breast_cancer()   X = pd.DataFrame(data.data, columns=data.feature_names)   y = pd.Series(data.target)    # 拆分训练和测试数据   X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)    # 创建 LightGBM 数据集   d_train = lgb.Dataset(X_train, label=y_train)    # 训练 LightGBM 模型   model = lgb.train(params={'objective': 'binary'}, train_set=d_train, num_boost_round=100)    # 获取特征重要性   fea_iptc = pd.DataFrame({       'feature_name': X.columns,       'importance': model.feature_importance()   })    # 显示特征重要性数据框   print(fea_iptc)    # 找到特征重要性为0的特征   fea_importance_0 = fea_iptc['feature_name'].loc[fea_iptc['importance'] == 0].tolist()   print('fea_importance_0: ', len(fea_importance_0), fea_importance_0)    # 找到特征重要性不为0的特征   fea_importance_not_0 = fea_iptc['feature_name'].loc[fea_iptc['importance'] != 0].tolist()   print('fea_importance_not_0: ', len(fea_importance_not_0), fea_importance_not_0)

三、iv和psi分析

使用信息值(IV)和群体稳定指数(PSI)筛选特征

import pandas as pd    # 示例数据:特征名称与它们的 IV 和 PSI 值   data = {       'name': ['feature1', 'feature2', 'feature3', 'feature4', 'feature5'],       'iv': [0.02, 0.15, 0.03, 0.01, 0.5],  # IV 值       'psi': [0.04, 0.02, 0.06, 0.07, 0.03]  # PSI 值   }    # 创建 DataFrame   iv_df = pd.DataFrame(data)    # 定义筛选特征的函数   def select_features_by_iv_psi(feature_stats, iv_threshold=0.01, psi_threshold=0.05):       """根据IV和PSI值筛选特征"""       high_iv_features = feature_stats[feature_stats['iv'] >= iv_threshold]       selected_features = high_iv_features[high_iv_features['psi'] < psi_threshold]       return selected_features['name'].tolist()    # 可选的特征列表   selected_features_list = ['feature1', 'feature2', 'feature3']    # 过滤特征   filtered_iv_df = iv_df[iv_df['name'].isin(selected_features_list)]    # 使用筛选函数   selected_features = select_features_by_iv_psi(filtered_iv_df)    # 输出筛选结果   print("Selected features:", len(selected_features), selected_features)

相关内容

热门资讯

绝活儿辅助!广西老友玩老是输怎... 绝活儿辅助!广西老友玩老是输怎么办(辅助挂)都是真的有辅助app(讲解有挂)在进入广西老友玩老是输怎...
法门辅助!福建13水插件(辅助... 法门辅助!福建13水插件(辅助挂)一贯是有辅助技巧(有挂技术)1、许多玩家不知道福建13水插件辅助怎...
办法辅助!潮友会app下载官方... 办法辅助!潮友会app下载官方辅助器(辅助挂)真是真的是有辅助app(有挂教程)该软件可以轻松地帮助...
妙招辅助!邯郸胡乐挂辅助(辅助... 妙招辅助!邯郸胡乐挂辅助(辅助挂)好像存在有辅助插件(有挂方略)1、上手简单,内置详细流程视频教学,...
教程书辅助!乐酷辅助(辅助挂)... 教程书辅助!乐酷辅助(辅助挂)其实存在有辅助脚本(有挂细节)乐酷辅助能透视中分为三种模型:乐酷辅助模...
学习辅助!决战卡五星辅助(辅助... 学习辅助!决战卡五星辅助(辅助挂)本来真的是有辅助软件(有人有挂)学习辅助!决战卡五星辅助(辅助挂)...
绝活辅助!边锋嘉兴麻将辅助器(... 绝活辅助!边锋嘉兴麻将辅助器(辅助挂)真是真的有辅助神器(新版有挂)1、边锋嘉兴麻将辅助器公共底牌简...
举措辅助!枫叶辅助器(辅助挂)... 举措辅助!枫叶辅助器(辅助挂)本来存在有辅助技巧(竟然有挂)1、下载好枫叶辅助器正确养号方法之后点击...
讲义辅助!点我达辅助(辅助挂)... 讲义辅助!点我达辅助(辅助挂)一直存在有辅助技巧(有人有挂)1、点我达辅助辅助器安装包、点我达辅助辅...
模块辅助!威信茶馆有挂的吗(辅... 模块辅助!威信茶馆有挂的吗(辅助挂)一直真的是有辅助脚本(揭秘有挂)1、玩家可以在威信茶馆有挂的吗线...