【译学】数据分析手册学习02:数据的定义、分类、策略 【实例应用情境】

wuchangjian2021-11-16 06:07:26编程学习

数据分析手册翻译及读后感, 英文原版资料可下载:introduction to data analysis handbook


数据的定义

数据是…
1973年《韦伯斯特新学院词典》将数据定义为“作为推理、讨论或计算基础的事实信息(如测量或统计)。《1996年韦伯斯特第二版新河边词典修订版》将数据定义为“信息,尤其是为分析而组织的信息”韦氏在线词典对“数据”的定义如下(http://www.m-w.com):

  1. 作为推理、讨论或计算基础的事实信息(如测量或统计)。例如,the data is plentiful and easily available(数据丰富且容易获得)——小H.A.格里森(H.A.Gleason,Jr.)。例如,comprehensive data on economic growth have been published(关于经济增长的综合数据已经公布)——N.H.雅各比。
  2. 传感装置或器官输出的信息,包括有用和不相关或冗余信息,必须进行处理才能有意义。
  3. 可以数字传输或处理的数字形式的信息。根据上述定义,定义数据的一种实用方法是,数据是数字、字符、图像或其他记录方法,其形式可以通过评估来确定或决定具体行动。许多人认为数据本身没有意义,只有当被解释时,它才会有意义并成为信息。(Many believe that data on its own has no meaning, only when interpreted does it take on meaning and become information.)通过仔细检查数据,我们可以发现可感知信息的模式,然后信息可以用来增强知识(免费的在线计算词典,1993-2005年Denis Howe)。

为了理清数据和信息的差异,我们可以进行举例:

* 数字1099,这是一个数据。
* “2004年入学年度在移民和季节性提前入学之前被确定为残疾的儿童人数为1099人”,这是一个信息。

在教育、公共卫生、营养、护理和管理等学科中已经很明显的东西,现在在早期护理和教育(包括先发制人)中也越来越明显。项目现在认识到,数据的质量和数量,无论是统计数据还是描述性数据,都是设定基线、确定有效行动、设定目标和指标、监测进展和评估影响所必需的(世界银行网站http://www.worldbank.org/data/aboutdata/aboutdata.html).

移民和季节性先行计划(Migrant and Seasonal Head Start programs)可以做好的一件事就是收集数据。以一个上游项目为例,5月下旬,注册期间的数据收集过程迅速。如果数据与儿童或家庭有关,则由适当的先遣员工共享。当程序结束时,数据被存储,接下来你知道的是三月,程序正在为服务前准备。人们总是面临的问题是:我们如何处理所有这些数据和/或信息?本手册的目标之一是帮助您回答这个问题。

在呈现和解释信息之前,必须有一个收集和排序数据的过程。同样,1099是一个数字,而这个数字实际上就是数据。数字1099是一个原始数字——它本身没有任何意义。正如我们家庭采摘的许多作物都是用来制作食物的原材料一样,数据也可以被视为获取信息的原材料。

先发制人需要收集各个领域的数据。我们收集所有内容服务领域的数据。因此,数据收集不仅限于儿童和家庭,而且如果目的和问题与儿童和家庭有关,那么在儿童和家庭不可用时收集数据肯定不是好的做法。您在Head Start中收集的数据可以采用多种形式。数据可以是数字、文字、图片、地图,甚至报纸文章的形式。在收集数据时,我们不可避免地会面临这样一个问题:哪一个更好。哪一个更好的概念有可能导致定性与定量的争论,尽管这让一些人感到兴奋,但可能会对项目规划和实施造成严重破坏。这些争论未能真正理解定性和定量数据的差异,因为在许多人的心目中,两者之间的差异是由一个比另一个更好的概念所强调的。

数据类型

在研究界,关于定量数据和定性数据的优劣一直存在着长期的争论。这场辩论的关键影响是基于研究人员的教学方式,再加上个体之间的差异以及他们对数字或单词的偏好。

事实上,这场辩论在很大程度上与起步无关。为了有一个高质量的程序,我们必须收集这两种类型的数据。有时,定量方法更适合于这种情况,反之亦然。“定性和定量方法不仅仅是做同一件事的不同方法。相反,它们具有不同的优势和逻辑,通常最适合用于解决不同的问题和目的(Maxwell,1996,2005)。”也就是说,在其他情况下,“两全其美”是有意义的并结合使用一些定量和定性数据,以便可信地解决特定问题并做出明智的决策。

定性数据

以口头或叙述形式表示的数据是定性数据。这些类型的数据是通过焦点小组、访谈、开放式问卷项目和其他不太结构化的情况收集的。看待定性数据的一个简单方法是以单词的形式思考定性数据。稍后,我们将探讨如何将下面的成绩单用作数据来源。

定性数据样本:家长访谈记录

  • (家庭1——丈夫)
    好吧,首先是我,在任何事情之前,我来这里是因为贫穷,你明白我的意思吗?为了更好的生活质量,在我的国家,我不太关心我自己,而是关心我的小妹妹们,这样她们就可以接受更好的教育,因为我没有任何教育。另一个原因是我的国家没有好工作,工作也很少。他们给你的工资很少,你从来没有离开过贫困,另一个原因是我父亲有两个兄弟已经在这里了,我认为我们在这里的人越多,每个人都能更好地互相帮助,与我们的妹妹相处就越容易。
  • (家庭1——妻子)
    同样是为了帮助我的父母,我来了,我会寄钱,然后我的兄弟来了,然后也是一样。
  • (家庭1——丈夫)
    因为在她的情况下,她个人或者说我们俩都是一样的情况。因为我们都是各自家里最大的,我是男人,但她更难,她是家里最大的女儿,理论上帮助父母更多地照顾更小的弟弟妹妹们。
  • (家庭1——妻子)
    我来的时候我爸爸已经在这里了,他在这里,我妈妈在墨西哥,我爸爸在这里呆了一段时间,然后他去了墨西哥。
  • (家庭1——丈夫)
    最重要的是,比如我的父母,他们是那种支持你的人?不,他们从不停止,比如你的梦想不会成为现实,他们总是尝试阻止我们。如果你决定做某事,就会被嘲弄“你知道你是哪根葱”,他们总是强求让我们提供比我们想要更好的东西。我们会努力做到我们的最好,但他们总是难以满足。

定量数据

定量数据是用数字表示的数据,其中数值可以大也可以小。数值可能对应于特定类别或标签。

来自PIR的样本定量数据
按所服务儿童年龄划分的实际入学人数:

  • 1岁以下: 3,843
  • 1岁: 4,785
  • 2岁: 6,341
  • 3岁: 7,604
  • 4岁: 6,988
  • 5岁或更大: 3,462

Head Start 计划的对比数据类型
表格直接拆开分析,凑合看看走个过场:
数据类型
从上面看来:
定性数据包括:

  • 家庭伙伴关系协议
  • 社会服务日志
  • 咨询小组会议记录
  • 政策局会议纪录
  • 报纸文章

定量数据包括:

  • PIR (Program Information Report 项目信息报告 )
  • 儿童表现追踪
  • 卫生数据跟踪系统

混合数据包括:

  • 注册信息
  • 注册和过渡记录
  • 调查(即家长、教师/员工、农民)

数据策略

定量和定性分析有多种策略,其中许多策略远远超出了入门手册的范围。不同的策略为数据分析师提供了处理数据的有组织的方法;它们使分析员能够为使用不同的程序创建一个“逻辑序列”。在下面的方框中,我们提供了四个定量分析策略的例子,你可以考虑在你的工作中开发你的数据分析技能,以及你可以考虑使用该策略的原因。第五节在查看特定内容区域数据时使用了其中一些策略。

定量分析策略1: 可视化数据 Visualizing the Data

涉及:创建数据的可视“图片”或图形显示。
原因:开始分析过程的方法;或作为报告/陈述调查结果的辅助手段。

定量分析策略2:探索性分析 Exploratory Analysis

涉及:查看数据以确定或描述“发生了什么”?-创建一个未来分析的初始起点(基线)。
理由:你有选择吗?

定量分析策略3:趋势分析 Trend Analysis

涉及:查看在不同时间段收集的数据。
原因:识别和解释(以及潜在的估计)变更。

定量分析策略4:估计 Estimation

涉及:使用实际数据值预测未来值。
理由:在你掌握了之前的所有策略后,与无聊作斗争。同时回答PIR和社区评估项目和任务。

从以上看来,MSHS这个类似于移民公共服务部门涉及的数据分析,根据他们开展活动的目的以及数据要求,是比较局限性的。我们实际工作中也是如此,并不会全部要求上马各种数据分析手段。但是我们依旧要抱着“面试造飞机,工作拧螺丝”的谦虚态度打好基础,把十八般武艺学到手。

策略分析

可视化数据

可视化数据是字面上创建并考虑数据的可视化显示。从技术上讲,它不是分析,也不是分析的替代品。然而,在分析数据之前,可视化数据可能是一个有用的起点。

例如,考虑从国家的角度了解移民和季节性的开端的人。具体来说,有人可能对所有MSHS受赠人的资助入学差异感兴趣。查看受资助注册人数的随机列表(PIR,2004),我们可以看到一个视角:
随机数据
在随机顺序中,对数据进行处理有点困难。然而,通过按顺序对值进行排序(注意:这可以从最低到最高或从最高到最低),我们可以获得数据集的更有序的视角:
数据排序
2004 MSHS 受资助机构资助的注册:
数据可视化最终结果
通过创建数据的可视化显示,我们可以开始使用上述数字“感受”MSHS受资助者在2004年的资助入学率方面的差异(注意:在Excel中,转到“插入”并选择“图表”,将电子表格列转换为条形图,见附录B)。

通过创建和查看数据的图形显示,我们可以“感受”到MSHS受资助者在整个地区的注册情况。特别是,两个最大的受赠人与该地区其他地区之间的规模差异非常突出,“小”项目和“大”项目之间更基本的差异也是如此。再次,这种可视化的数据显示不是替代分析,但它往往可以提供一个有效的基础,以指导后续分析。

探索性分析

探索性分析需要在特定指标(教师资格、第一语言和第二语言习得等)知识水平较低时查看数据。它还可以包括指标之间的关系和/或特定指标的原因。

趋势分析

趋势分析一般的最常规目标是查看随时间变化的数据。例如,说明残疾儿童人数等特定指标是否随时间增加或减少,如果增加或减少,增加或减少的速度有多快或多慢。本手册中讨论并鼓励的趋势分析的一个方面是将一个时间段与另一个时间段进行比较。进行这种形式的趋势分析是为了评估事件前后的指标水平。

估计

使用定量或定性数据时,可能会出现估算程序。使用定量数据,如贫困水平数据,可以与服务于低收入家庭的提供者的访谈相结合,以帮助确定该地区符合收入标准的家庭比例。评估是用于帮助规划未来的许多工具之一。这一估计对于预测与人口特征、合格儿童和家庭以及社会服务密切相关的数量非常有效。估计是从不同数据源的信息乃至延伸到不同项目信息的组合,只引用其中之一的单个信息源都做不到成功的估计的。

相关文章

计算s=1+12+123+1234+12345 C语言

#define N 5 #include <stdio.h> int mai...


在这里插入图片描述

Oracle

目录 考试系统oracle版 PD创建Oracle模型 表设计 Oracle数据...

[ECMAScript] Reflect是什么,有什么应用场景?

[ECMAScript] Reflect是什么,有什么应用场景࿱...

设计模式:原型模式

所谓原型模式就是当一个对象在运行时创建后,所有后续的对象都在此对象上通过c...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。