位置:首页 > 统计名词和数据挖掘术语大盘点 >

统计名词和数据挖掘术语大盘点

作者:小牛君|发布时间:2017-04-01

小牛学堂的课程大纲最近进行了再一次升级,并且同时推出Java大数据平台开发班、Python爬虫与数据挖掘班、Spark项目班、Spark大神班、机器学习算法实战班、BI数据分析实战班, 目前这类人群凤毛麟角,导致这个行业的平均薪资极高,为此小牛学堂集合了行业的诸多大牛开设对应班级,为想学习的同学提供机会!
如果想了解详细情况,请联系 今日值班讲师 或者直接加入千人QQ群进行咨询:210992946

以下是本文正文:


统计名词和数据挖掘术语大盘点

一、数据挖掘术语
 
【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。
 
【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个“域” 。
 
【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、 或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。
 
【置信度】在形如“如果买了A和B,就要买C”的关联法则里有特定的含义。置信度是已经买了A和B,还要买C的条件概率。
 
【因变量】在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”
 
【估计】指的是预测一个连续型输出变量的值;也被称作“预测”。
 
【特征】也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。
 
【输入变量】是在有约束学习里作预测的变量;也被称作“自变量”、“预测变量”。
 
【模型】通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可以调节的参数)。
 
【结果变量】 在有约束学习里是那个被预测的变量;也被称作“因变量” “输出变量”、“目标变量”、或者“输出变量”。
 
【P(A|B)】读作“已知B已经发生,A将发生的概率”
 
【预测】指的是预测一个连续输出变量的值;也被称作“估计”。
 
【记录】是关于一个单元的测量值的集合-例如一个人的身高、体重、年龄等等;它也被称作“个体”、或者“排”(每一排通常代表一个记录,每一列代表一个变量)。
 
【分数】指的是一个估计的值或者类。
 
【给新数据打分】意思是利用用训练数据得出的模型预测新数据里的输出值
 
二、统计名词
 
【统计】就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总体的把握,全局性的认识。
 
【教育统计】对教育领域各种现象量的取值从总体上的把握与认识,它是为教育工作的良好进行,科学管理、革新发展服务的。
 
【教育统计学】社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉结合产物
 
【测量】按一定规则给对象在某种性质的量尺上指定值。
 
【教育测量】就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指定值
 
【心理量表】心理测验工具与常模的结合
 
【数据】用数量或数字形式表示的资料事实称为数据。
 
【计数数据】是以计算个数或次数获得的,多表现为整数。
 
【测量评估数据】借助测量工具或评估方法对事物的某种属性指派给数字后所获数据。人工编码数据以人们按一定规则给不同类别的事物指派适当的数字号码后所形成的数据
 
【称名变量】只说明某一事物与其他事物在名称、类别或属性上的不同,并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。
 
【顺序变量】是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量,具有等级性和次序性的特点。
 
【等距变量】除能表明量的相对大小外,还具有相等的单位。
 
【比率变量】除了具有量的大小、相等单位外,还有绝对零点。比率变量数据可以进行加、减、乘、除运算
 
【次数分布】一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的情况。
 
【简单次数分布表】通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。
 
【相对次数】各组的次数f与总次数N之间的比值
 
【次数分布曲线】从理论上讲,如若总次数无限增大,则随着组距的缩小,这些折线所接近的极限便将成为极光滑而富有规则性的曲线,称为次数分布曲线
 
【散点图】用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。
 
【线形图】以起伏的折线来表示某种事物的发展变化及演变趋势的统计图,适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一事物发展变化的趋势模式,还可适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系
 
【观测数据不仅具有离散性的特点,而且还具有向某点集中的趋势,反映次数颁分布集中趋势的量数叫集中量数。
 
【中位数】位于数据分布正中间位置上的那个数。如果一组数据从小到大排列,则中位数通常是将这批数据个数一分为二,居于中间的那个数。
 
【众数】一个次数分布中出现次数最多的那个数,众数不唯一可有一个或多个。用符号Mo表示。
 
【离中趋势】数据具有偏离中心位置的趋势,它反映了一组数据本身的离散程度和变异性程度。
 
【差异量数】反映一组数据离散程度的量
 
【一批数据的算术平均数指的是这批数据总和数除以数据总次数后所得的商数。
 
【平均差】各数据与其平均数的离差绝对值的平均值。
 
【方差】数据的离差平方数的算术平均数。
 
【标准差】方差的算术平方根
 
【差异系数】差异量数和集中量数两相对比后所形成的相对差异量数。
 
【地位量数】凡反映次数分布中各数据所处地位的量就叫地位量数
 
【相关】行为变量或现象之间存在着种种不同模式、不同程度的联系。这种联系叫做相关。
 
【直线性相关】两个变量的成对观测数据在平面直角坐标系上描点构成的散点图会环绕在某一条直线附近分布
 
【原始分数】在测量工具上直接得到的测值(数字),叫原始分数。
 
【相对评分分数】通过被试间相互比较而确定意义的分数叫相对评分分数。
 
【绝对评分分数】通过拿被试测值跟应有标准作比较来确定其意义的分数叫绝对评分分数
 
【常模】测验常模简称常模即指一定人群在测验所测特性上的普遍水平或水平分布状况。
 
【组内常模】解释被试原始分数的参照体系,即被试所属那类群体的人,在所测特性上测验取值的分布状况。
 
【标准分数常模】用被试所得测验分数转换成的标准分数来揭示其在常模团体中的相对地位的组内常模
 
【线性变换】对所有要作变换的值,都乘以同一确定值然后再都加上另一确定值。
 
【测绘项目的难度】被试完成项目作答任务时所遇到的困难程度。
 
【项目的难度指数】定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数。
 
【得分率(通过率)】最通用的项目难度指数的求法,就是计算被试在项目上的得分率或者说通过率。
 
【项目区分度】就是项目区别被试水平高低的能力的量度。
 
【测验信度】测验在测量它所测特质时得到的分数(测值)的一致性。它是对测验控制误差能力的量度,是反映测验性能的一个重要质量指标
 
【观察分数】如果从测验实施过程中实际得到的被试分数叫观察分数。
 
【真分数】被试在所测特质上客观具有的水平值。
 
【测量误差】观察分数与真分数的差就是测量误差。
 
【信度系数】利用同一测验向同一批被试重测两次所得的两批独立测值,求出其间的相关系数,就可利用这种重测相关系数作为测验信度的估计值。这样的相关系数就叫信度系数。
 
【稳定性系数】由于重侧法十分强调特质的稳定性,所以用这种方法求取的信度系数就叫做稳定性系数。
 
【等值性系数】用平行形式相关求得的信度系数,因为特别强调两测验形式的等值关系所以又叫等值性系数
 
【测量标准误】实际测验中所得测值偏离真分数的程度叫做测量标准误可记为SEM。
 
【测验效度】测验实际上测到它打算要测的东西的程度。
 
【内容效度】测验项目构成应测行为领域代表性样本的程度。
 
【效标关联效度】测验预测个体在类似或某种特定情境下行为表现的有效性。
 
【结构效度】测验测得心理学理论所定义的某一心理结构或特质的程度。
 
【效度系数】测验分数与效标测量值间的相关系数叫效度系数
 
【安置性测验】学期开始或单元教学开始时确定学生实有水平以便针对性地做好教学安排而经常使用的测验。
 
【形成性测验】在教学进行过程中实施的用于检查学生掌握知识和进步情况的测验,这可为师生双方提供有关学习成败的连续反馈信息。
 
【诊断性测验】为探测与确定学习困难原因而施测的一类测验。
 
【终结性测验】在课程结束或教学大周期结束时,用于确定教学目标达到程度和学生对预期学习结果掌握程度的一类测验,称为终结性测验
 
【常模参照测验】实是参照着常模使用相对位置来描述测验成绩水平的一种测验。
 
【标准参照测验】跟一组规定明确的知识能力标准或教学目标内容对比时,对学习者的测验成绩作出解释的一类测验。
 
【职业能力倾向测验】测量人的某种潜能,从而预测人在一定职业领域中成功可能性的心理测验
 
【能力倾向】一个人获得新的知识、能力和技能的内在潜力
 
【确定性现象】在相同的条件下其结果也一定相同的现象。
 
【不确定性现象】在相同的条件下其结果却不一定相同的现象,又称随机现象
 
【随机变量】我们称记录各种随机试验结果的变量为随机变量。
 
【概率】通俗地说,某事件发生的概率就是该事件发生的可能性大小记作为P(A)
 
【正态分布】是连续性随机变量中常见的一种概率分布形态也称常态分布。
 
【总体】我们把客观世界中具有某种共同特征的元素的全体称为总体。
 
【样本】从总体中抽取的部分个体组成的群体称为样本。
 
【统计量】在总体数据基础上求取的各种特征量数我们称其为参数,应用样本数据计算的各种特征量数我们称其为统计量。
 
【抽样分布】从一个总体中随机抽取若干个等容量的样本,计算每个样本的某个特征量数,由这些特征量数形成的分布,称为这个特征量数的抽样分布
 
【小概率事件】在教育统计中常常把概率取值小于0.05或小于0.01的随机事件称为小概率事件。
 
【小概率事件原理】认为小概率事件在一次抽样中不可能发生的原理
 
【统计假设检验的显著性水平】在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平。记为α。虚无假设又称为原假设、零假设,以符号H0表示。虚无假设在假设检验中将被视作为已知条件而应用,因此虚无假设应是一个相对比较明确的陈述命题,一定要含有“等于什么”的成分。备择假设又称解消假设,研究假设等,以符号H1表示。备择假设作为虚无假设的对立假设而存在,因此它也是一个陈述命题,备择假设是对虚无假设的否定
 
【方差分析】统计学中一种独特的假设检验方法,它的最基本功能就是一次性检验多个总体平均数的差异显著性
 
【差异系数】又称为变异系数和变差系数,用符号CV表示。差异系数是一种反映相对离散程度的系数,即相对差异量数。它消去了单位,因而适合于不同性质数据的研究与比较。数据在次数分布中所处的地位可用百分等级来表示。百分等级也称百分位。用记号PR表示。百分等级反映的是某个观测分数以下数据个数占总个数的比例的百分数,在0到100之间取值。如百分等级PR=75,与其对应的这个百分位数,读作第75百分位数,记作P75
 
【相关】统计学上用相关系数来定量描述两个变量之间的直线性相关的强度与方向。如相互关联着的两变量,一个增大另一个也随之增大,一个减小另一个也随之减小,变化方向一致是正相关。如相互关联着的两变量,一个增大另一个反而减小,变化方向相反是负相关。相关系数用r表示, r在-1和+1之间取值。相关系数r的绝对值大小,表示两个变量之间的相关强度;相关系数r的正负号,表示相关的方向,分别为正相关和负相关;相关系数r=0,称零线性相关,简称零相关;相关系数|r|=1时,表示两个变量是完全相关。当0.7≤|r|<1,称为高相关;当0.4≤|r|<0.7时,称为中等相关;当0.2≤|r|<0.4时,称为低相关;当|r|<0。2时,称极低相关或接近零相关
 
【积差相关】是应用最普遍、最基本的一种相关分析方法,尤其适合于对两个连续变量之间的相关情况进行定量分析
 
【等级相关适用的几种情况】①两列观测数据都是顺序变量数据,或一列是顺序变量数据,另一列是连续变量的数据。如对学生的绘画、体育测试成绩排名就属顺序变量数据②两个连续变量的观测数据,其中有一列或两列数据的获得主要依靠非测量方法进行粗略评估得到。如语文基础知识水平可测验加以测量但学生的课文朗读水平却只能根据若干准则由老师给予大体的评估。点双列相关适用于双变量数据中,有一列数据是连续变量数据,如体重、身高以及许多测验与考试的分数;另一列数据是二分类的称名变量数据,如性别
 
【原始分数;原始分数的意义必须要跟一定的参照物(系统)作比较,才能真正明确起来。原始分数意义的参照物大体有两类,一是其他被试的测值,即其他被试在所测特性上的普遍水平或水平分布状态;二是社会在所测特性上的客观要求,即被试在所测特性上发展应该达到程度的标准
 
【常模】总是指某一具体测验(不能简单地看成是其名称所指特性)上的常模。常模总是特定的、具体的,是就一定人群在具体测验上的表现来说的。常模又可分为发展常模与组内常模两大类。发展常模又有年龄常模与年级常模之别,组内常模又有百分等级常模与标准分数常模之别。历史上第一个提出常模这一科学概念的是法国心理学家比纳。他最早建立了智力测验的年龄常模。发展常模就是某类个体正常发展进程各特定阶段的一般水平
 
【智商(IQ)】智商=智力年龄/生理年龄×100
 
【组内常模】组合常模又可分为百分等级常模与标准分数常模两个类别。一个分数的百分等级,就是该分数在所属分数组中,取值比它小的分数个数占该分数组总个数的百分数。百分等级值只有可比性而无可加性,不能累加求和与进一步求平均;这是百分等级常模的一个局限所在。
 
【三种偏态分布】如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;如果一个测验对某一被试团体来说,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态;假定被试团体在某一特定方面,其水平分布事实上是呈正态分布的,若测验项目的难度确能做到对这个被试团体来说是恰当的,那么对这个团体施测这一测验,所得被试测验总分分布自然也会呈正态分布。
 
三、其他
 
1、一个测验分数的标准分数,就是以它所属分数组的标准差为单位的,对它所属分数组的平均数的距离
 
2、难度指数(p)取值越大并不意味着项目越难,而是越易;指数p的数字值与其代表的含义,方向恰好相反
 
3、“高、低分组求得分率差”的办法就是将全体被试按总分多寡加以排队,然后取得分最多的27%的被试作为“高分组”,得分最少的27%的被试作为“低分组”,最后求这两个组上项目得分率(通过率)的差来作为区分度指数的取值
 
4、人们就使用两个平行形式测验来测查同一批被试,这样也可获得同一批被试的两批独立测值,从而通过求相关系数,估出测验的信度32、效度验证工作大体分为三类即内容效度、效标关联效度和结构效度。效标关联效度又包含“并存”效度和“预测”效度这两个小类别
 
5、测验即使相当有效,效度系数rXY的取值也很少能超过0.70,一般取值能达到0.40就相当不错了
 
6、根据课堂教学运用测验的一般顺序来分可把学业成就测验分成安置性测验、形成性测验、诊断性测验和终结性测验。根据解释测验分数的方法不同可把学业成就测验分成常模参照测验和标准参照测验两类。根据成就测验的实施方式与测验载体,我们把成就测验分成口头测验、纸笔测验和操作测验
 
7、纸笔测验优点①提高测验的效率,即同时可以进行大团体的测验②便于完整记录学生在题目作答上的反应③便于施测和评分过程的规范化和标准化从而提高学业成就测验的信度与效度④便于对测验中答题信息的分析研究
 
End.


了解更多详情请联系 今日值班讲师 或者直接加入千人QQ群进行咨询:210992946

分享到: