动手学数据分析task05 数据建模及模型评估

news/2024/7/4 9:23:54

特征工程

缺失值的填充

分类型变量

  • 填充某个缺失值字符(NA)
  • 用最多类别的进行填充

连续型变量 填充均值、中位数、众数

第一步:查看所有属性列中有哪些有缺失值

train.isnull().sum().sort_values(ascending=False)

在这里插入图片描述

第二步:查看某一个属性列有多少种取值,并排序

在这里插入图片描述

  • 注意两种区别:一种是对index排序,一种是对value排序

第三步:根据是连续型还是分类型选择不同方法填充

在这里插入图片描述

第四步 查看并检验

在这里插入图片描述

编码分类型变量(机器学习只可以处理数值)

data = pd.get_dummies(data)
是利用pandas实现one hot encode的方式

在这里插入图片描述
处理前后对比:

在这里插入图片描述

模型搭建

在这里插入图片描述

切分训练集和测试集

切割方法

  • 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
  • 按目标变量分层进行等比切割

注意

  • 要设置随机种子以便复现
  • 可以先确定好x和y在切割,也可以先切割完在找x和y

逻辑回归模型

  • 可以调节的参数就是max_iter

在这里插入图片描述

随机森林模型

在这里插入图片描述
在这里插入图片描述

预测

  • predict是预测结果
  • predict_proba是对于所有分类结果的分类概率;在本文中,只有幸存与否两种结果,所以对于两个的概率

在这里插入图片描述

模型评估

交叉验证

在这里插入图片描述
在这里插入图片描述

混淆矩阵

在这里插入图片描述
在这里插入图片描述

ROC曲线

  • ROC曲线下面所包围的面积越大越好
    在这里插入图片描述

http://www.niftyadmin.cn/n/4115462.html

相关文章

Ubuntu14.04安装pycharm并配置pycharm运行Django工程

1、安装jdk1.8 sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer2、设置环境变量输入vim ~/.bashrc,在文件末尾添加 export JAVA_HOME/usr/lib/jvm/java-8-oracle export JRE_HOME${JAVA_HOME}/jre…

np.meshgrid函数解读

numpy.meshgrid()——生成网格点坐标矩阵 以生成6个点的网格图为例 若是有大量的格点 可以看出,上面这种很繁琐,如果改为meshgrid函数则稍微简单一些(因为他们的x,y坐标都很有规律)

C语言指针(个人的认识)

有人说指针是C语言的灵魂&#xff0c;可见指针的重要性。 下面我们就开门见山。 一、指针定义 指针即地址&#xff0c;指针变量是存储指针的变量。 二、指针的声明 int * p&#xff0c;&#xff08;表示p变量存储一个int类型变量的地址。&#xff09; #include<stdio.h>v…

nilmtk介绍_user版本

安装nilmtk data the load api load data into memory Meter selection and basic statistics New: The experimentation API: check also NILMTK-contrib for some related material and related paper. nilmtk -contrib https://github.com/nilmtk/nilmtk-contrib Legacy: …

pybrain安装及测试

根据别人的博客进行执行https://blog.csdn.net/clheang/article/details/46455599 Linux和windows不一样&#xff0c;在Linux都需要使用terminal(注意有一个进入根目录的操作&#xff0c;不能直接python setup.py install ) pip install https://github.com/pybrain/pybrain/ar…

lua基金会【五岁以下儿童】I/O文件操作

--[[lua操作相关文件I/O ]]----件,假设该文件不存在的话&#xff0c; --lua会帮助我们在你规定的文件夹下创建这个文件&#xff0c;前提是该文件夹要存在 --[[ 同一时候我们应该掌握写入文件的模式&#xff1b;对下面写入模式进行说明&#xff1a; "r" 模式&#xff…

day2数学运算、字符串和文本、列表

注释的使用 单行注释用#&#xff0c;多行注释用’’’ ‘’’ 数学运算 字符串和文本 组合输出字符串的方法一&#xff1a;print()内部用逗号隔离开 组合输出字符串的方法二&#xff1a;一个’’’内部加入占位符输出想要信息 组合输出字符串的方法三&#xff1a;用format函数…

Yii2中验证码的使用

2019独角兽企业重金招聘Python工程师标准>>> 1.控制器中 public function actions() { return [ captcha > [ class > yii\captcha\CaptchaAction, fixedVerifyCode > YII_ENV_TEST ? testme : null, ], ]; } 2.模型中 要有一个验证码的字段$verifyCode …