当前位置: 首页 > news >正文

第五章Pandas数据载入与预处理

文章目录

  • 1:选择题
  • 2:判断题
  • 3:填空题
  • 4:简答题

1:选择题

1:利用下面哪个可视化绘图可以发现数据的异常点

A.密度图
B.直方图
C.盒图

D.概率图
知识点解析:
密度图:表现与数据值对应的边界或域对象的一种理论图形表示方法
直方图:直方图是数值数据分布的精确图形表示
盒图:是结构化编程中的一种可视化建模
概率图:用图来表示变量概率依赖关系的理论


2:以下关于缺失值检测的说法中,正确的是
A.null和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,还可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.Pandas库中的interpolate模块包含了多种插值方法
**知识点解析:
处理缺失值的三种方法:isnull(),notnull(),isna()


3:在现实世界的数据中,缺失值是常有的,一般的处理方法有

A.忽略
B.删除
C.平均值填充
D.最大值填充


2:判断题

1:Pandas中利用merge函数合并数据表时默认的是内连接方式  正确


2:Pandas中的描述性统计一般会包括缺失数据  错误


3:语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列  错误
知识点解析:
格式:DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
用途:删除缺失的值。
thresh : int,可选需要许多非NA值。
axis : 0或’index’,1或’columns’,默认0确定是否删除包含缺失值的行或列。
0或’index’:删除包含缺失值的行。 1或“列”:删除包含缺失值的列。
可得此题应为:如果某列的缺失值不到90%则删除该列


4:利用merge方法合并数据时允许合并的DataFrame之间没有连接键  错误


5:哑变量(Dummy Variables)又称虚拟变量,是用以反映质的属性的一个人工变量  正确


6:Pandas中使用isnull().sum()可以统计缺失值  正确


7:Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留   错误
8:DataFrame的duplicates方法可以用来删除重复数据   错误
9:网络关联关系在大数据中是一种常见的关系   正确

3:填空题

1:Pandas中drop方法中的参数how取值为 ___时表示只要某行有缺失值就将改行丢弃  any


2:Pandas中drop方法中的参数how取值为 ___时表示某行全部为缺失值就将改行丢弃  all


3:Pandas通过read_json函数读取___数据  JSON


4:Pandas要读取Mysql中的数据,首先要安装 ___包,然后进行数据文件读取  Mysqldb


5:Pandas要读取SQL sever中的数据,首先要安装 ___包,然后进行数据文件读取  pymssql


4:简答题

1:简述Pandas删除空缺值方法dropna中参数thresh的使用方法
  dropna中的参数thresh当传入thresh = N时,表示要求一行至少具有N个非NaN才能存活


2:简述Python中利用数据统计方法检测异常值的常用方法及其原理
  方法:a.散点图方法观察 b. 箱线图分析 c. 3σ法则
  原理:标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据


3:简述数据分析中要进行数据标准化的主要原因
  不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。


4:简述Pandas中利用cut方法进行数据离散化的用法
  将数据的值域划分成具有相同宽度的区间,区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数,可以进行连续型数据的等宽离散化。cut函数的基础语法格式为:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)


相关文章:

  • JeecgBoot搭建(低代码)
  • springboot中使用Spring Data Jpa
  • SpringSecurity(八)【会话管理】
  • 机器学习笔记之受限玻尔兹曼机(三)推断任务
  • 高可用组件,Keepalived详解
  • SpringCloud
  • MATLAB学习笔记(系统学习)
  • 【Redis】Redis安装步骤和特性以及支持的10种数据类型(Redis专栏启动)
  • Matlab:tftb-0.2时频工具箱安装小记
  • docker 安装 redis 6.0.8 cluster 实战 (3主3从) 安装篇
  • [Windows驱动开发] BlackBone介绍
  • hadoop完全分布式环境搭建详细版
  • 【YOLOv7/YOLOv5系列算法改进NO.47】改进激活函数为GELU
  • 网课题库接口调用方法
  • C语言Socket编程,实现两个程序间的通信
  • 如何让页面跳转更丝滑
  • docker_重装mysql
  • [论文阅读] 颜色迁移-Automated Colour Grading
  • 卡尔曼滤波算法原理
  • 结构重参数化
  • 【JDBC】----封装工具类和ORM
  • java-net-php-python-springboot舞房管理系统演示录像0512计算机毕业设计程序
  • 澳亚通过聆讯:上半年营收近3亿美元 元气森林与新希望乳业是股东
  • Linux中线程池的制作
  • Python——基础知识(1)
  • 笔试强训48天——day24
  • 【车载开发系列】UDS诊断---写入数据($0x2E)
  • ARM ACP
  • 评职称需要什么专利
  • CMake详细教程
  • 湖南2021本科批(普通类历史类)第一次征集志愿投档分数线
  • 2022年甘肃高考482分能报什么大学 482分能上哪些院校
  • 2022年全国各大高校在山东招生计划及分数
  • 浙江有哪些师范大学,年浙江师范类大学分数线排名一览表
  • 武汉设计工程学院是几本
  • 2022感恩节放假吗 中国有哪些节日会放假
  • 12种新高考3+1+2选科组合分析 怎么选科好
  • 0基础艺考最容易过的专业有哪些 通过率最高的专业是什么
  • 体育高水平怎么报名
  • 浙江2022普通类第二段平行投档分数线是多少