特征工程
缺失值的填充
分类型变量
- 填充某个缺失值字符(NA)
- 用最多类别的进行填充
连续型变量 填充均值、中位数、众数
第一步:查看所有属性列中有哪些有缺失值
train.isnull().sum().sort_values(ascending=False)
第二步:查看某一个属性列有多少种取值,并排序
- 注意两种区别:一种是对index排序,一种是对value排序
第三步:根据是连续型还是分类型选择不同方法填充
第四步 查看并检验
编码分类型变量(机器学习只可以处理数值)
data = pd.get_dummies(data)
是利用pandas实现one hot encode的方式
处理前后对比:
模型搭建
切分训练集和测试集
切割方法
- 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
- 按目标变量分层进行等比切割
注意
- 要设置随机种子以便复现
- 可以先确定好x和y在切割,也可以先切割完在找x和y
逻辑回归模型
- 可以调节的参数就是max_iter
随机森林模型
预测
- predict是预测结果
- predict_proba是对于所有分类结果的分类概率;在本文中,只有幸存与否两种结果,所以对于两个的概率
模型评估
交叉验证
混淆矩阵
ROC曲线
- ROC曲线下面所包围的面积越大越好