动手学数据分析task05 数据建模及模型评估

news/2024/7/4 9:23:54

特征工程

缺失值的填充

分类型变量

填充某个缺失值字符(NA)
用最多类别的进行填充

连续型变量填充均值、中位数、众数

第一步：查看所有属性列中有哪些有缺失值

train.isnull().sum().sort_values(ascending=False)

在这里插入图片描述

第二步：查看某一个属性列有多少种取值，并排序

在这里插入图片描述

注意两种区别：一种是对index排序，一种是对value排序

第三步：根据是连续型还是分类型选择不同方法填充

在这里插入图片描述

第四步查看并检验

在这里插入图片描述

编码分类型变量（机器学习只可以处理数值）

data = pd.get_dummies(data)
是利用pandas实现one hot encode的方式

在这里插入图片描述
处理前后对比：

在这里插入图片描述

模型搭建

在这里插入图片描述

切分训练集和测试集

切割方法

按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
按目标变量分层进行等比切割

注意

要设置随机种子以便复现
可以先确定好x和y在切割，也可以先切割完在找x和y

逻辑回归模型

可以调节的参数就是max_iter

在这里插入图片描述

随机森林模型

在这里插入图片描述

预测

predict是预测结果
predict_proba是对于所有分类结果的分类概率；在本文中，只有幸存与否两种结果，所以对于两个的概率

在这里插入图片描述

模型评估

交叉验证

在这里插入图片描述

混淆矩阵

在这里插入图片描述

ROC曲线

ROC曲线下面所包围的面积越大越好

http://www.niftyadmin.cn/n/4115462.html

相关文章

Ubuntu14.04安装pycharm并配置pycharm运行Django工程

Ubuntu14.04安装pycharm并配置pycharm运行Django工程

1、安装jdk1.8 sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer2、设置环境变量输入vim ~/.bashrc，在文件末尾添加 export JAVA_HOME/usr/lib/jvm/java-8-oracle export JRE_HOME${JAVA_HOME}/jre…

阅读更多...

np.meshgrid函数解读

np.meshgrid函数解读

numpy.meshgrid()——生成网格点坐标矩阵以生成6个点的网格图为例若是有大量的格点可以看出，上面这种很繁琐，如果改为meshgrid函数则稍微简单一些（因为他们的x,y坐标都很有规律）

阅读更多...

C语言指针（个人的认识）

C语言指针（个人的认识）

有人说指针是C语言的灵魂，可见指针的重要性。下面我们就开门见山。一、指针定义指针即地址，指针变量是存储指针的变量。二、指针的声明 int * p，（表示p变量存储一个int类型变量的地址。） #include<stdio.h>v…

阅读更多...

nilmtk介绍_user版本

nilmtk介绍_user版本

安装nilmtk data the load api load data into memory Meter selection and basic statistics New: The experimentation API: check also NILMTK-contrib for some related material and related paper. nilmtk -contrib https://github.com/nilmtk/nilmtk-contrib Legacy: …

阅读更多...

pybrain安装及测试

pybrain安装及测试

根据别人的博客进行执行https://blog.csdn.net/clheang/article/details/46455599 Linux和windows不一样，在Linux都需要使用terminal(注意有一个进入根目录的操作，不能直接python setup.py install ) pip install https://github.com/pybrain/pybrain/ar…

阅读更多...

lua基金会【五岁以下儿童】I/O文件操作

lua基金会【五岁以下儿童】I/O文件操作

--[[lua操作相关文件I/O ]]----件,假设该文件不存在的话， --lua会帮助我们在你规定的文件夹下创建这个文件，前提是该文件夹要存在 --[[ 同一时候我们应该掌握写入文件的模式；对下面写入模式进行说明： "r" 模式&#xff…

阅读更多...

day2数学运算、字符串和文本、列表

day2数学运算、字符串和文本、列表

注释的使用单行注释用#，多行注释用’’’ ‘’’ 数学运算字符串和文本组合输出字符串的方法一：print()内部用逗号隔离开组合输出字符串的方法二：一个’’’内部加入占位符输出想要信息组合输出字符串的方法三：用format函数…

阅读更多...

Yii2中验证码的使用

Yii2中验证码的使用

2019独角兽企业重金招聘Python工程师标准>>> 1.控制器中 public function actions() { return [ captcha > [ class > yii\captcha\CaptchaAction, fixedVerifyCode > YII_ENV_TEST ? testme : null, ], ]; } 2.模型中要有一个验证码的字段$verifyCode …

阅读更多...

最新文章