连续属性离散化

发布时间：2021-02-08 13:47:15 所属栏目：大数据来源：网络整理

导读：1. 离散化技术分类连续属性的离散化方法也可以被称为分箱法，即将一组连续的值根据一定的规则分别放到其术语的集合中。离散化技术可以根据如何对数据进行离散化加以分类，可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过

该分裂算法是把整个属性的取值区间当做一个离散的属性值，然后对该区间进行划分，一般是一分为二，即把一个区间分为两个相邻的区间，每个区间对应一个离散的属性值，该划分可以一直进行下去，直到满足某种停止条件，其关键是划分点的选取。
分裂步骤：
依次计算每个插入点的卡方值，当卡方值达到最大时，将该点作为分裂点，属性值域被分为两块。
然后再计算卡方值，找到最大值将属性值域分成三块。
停止准则：
当卡方检验显著，即 p 值 <α 时，继续分裂区间；
当卡方检验不显著，即 p 值 ?α 时，停止分裂区间；

5. ChiMerge算法

ChiMerge算法是一种基于卡方值的自下而上的离散化方法。和上一种算法正好相反。
分裂步骤：
第一步：根据要离散的属性对实例进行排序：每个实例属于一个区间
第二步：合并区间，计算每一对相邻区间的卡方值
停止准则：
当卡方检验不显著，即 p 值 ?α 时，继续合并相邻区间；
当卡方检验显著，即 p 值 <α 时，停止区间合并；

6. 基于熵的离散化方法

本方法也是一种自上而下的离散化方法。首先，定义一下熵的概念：
ei=?∑kj=1pijlog2pij
其中， pij=mijmi 是第 i 个区间中类 j 的概率。该划分的总熵 e 是每个区间的熵的加权平均：
e=∑ni=1wiei
其中 wi=mim 是第 i 个区间的值的比例， n 是区间个数。
划分过程：
首先将属性的取值值域按照值得大小排序。把每个值看作是可能的分割点，依次把区间分成两部分计算它们的熵值，取熵值最小的作为第一次划分点。
然后选取一个区间，通常选择熵值最大的区间重复此过程。
当区间个数达到用户指定的个数或某个用户指定的终止条件则停止继续分裂。

参考资料

《连续属性的离散化》
《数据挖掘导论》

备份地址

（编辑：瑞安网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

元宇宙算力要比现在至	核心技术再突破，萨摩
很全面 3D打印科技在铁	扫地机器人哪种牌子好