rrcforest

健康健壮的随机森林的异常检测模型

自从R2023a

所有的页面崩溃

语法

森林= rrcforest(台)

森林= rrcforest (X)

森林= rrcforest (___名称=值)

(森林、tf) = rrcforest (___)

(森林、tf、分数)= rrcforest (___)

描述

使用rrcforest函数以适应鲁棒随机森林减少异常值检测和新奇检测模型。

异常值检测(检测异常的训练数据)——使用输出参数特遣部队的rrcforest在训练数据异常识别。
新奇检测(检测异常在新数据与未被污染的训练数据),创建一个RobustRandomCutForest模型对象通过未被污染的训练数据(数据没有异常值)rrcforest。检测异常新数据通过对象和新的数据对象的功能isanomaly。

森林= rrcforest (资源描述)返回一个RobustRandomCutForest为预测表中的数据模型对象资源描述。

森林= rrcforest (X)使用预测数据矩阵X。

例子

森林= rrcforest (___,名称=值)指定选项使用一个或多个名称参数除了任何输入参数组合在前面的语法。例如,指定ContaminationFraction= 0.1异常处理10%的训练数据。

(森林,特遣部队)= rrcforest (___)也返回逻辑数组特遣部队的元素是真正的在检测到异常时在相应的行资源描述或X。

例子

(森林,特遣部队,分数)= rrcforest (___)还返回一个异常分数范围内[0,正)为每一个观察资源描述或X。小积极值表示一个正常的观察,和一个大正值显示异常。

例子

全部折叠

检测异常值

打开生活的脚本

检测异常值(在训练数据异常)使用rrcforest函数。

加载示例数据集NYCHousing2015。

负载NYCHousing2015

数据集包括10变量信息属性的销售在2015年在纽约。显示一个总结的数据集。

总结(NYCHousing2015)

变量:区:91446 x1双重价值:1分钟3马克斯5社区中位数:91446 x1单元阵列的特征向量BUILDINGCLASSCATEGORY: 91446 x1单元阵列的特征向量RESIDENTIALUNITS: 91446 x1双重价值:最小值0 8759 Max COMMERCIALUNITS中位数:91446 x1双重价值:最小值0最大612 LANDSQUAREFEET: 91446 x1双重价值:最小值0 1700 Max 2.9306 e + 07 GROSSSQUAREFEET中位数:91446 x1双重价值:最小值0 1056 Max 8.9422 e + 06 YEARBUILT中位数:91446 x1双重价值:最小值0 1939 Max 2016 SALEPRICE中位数:91446 x1双重价值:最小0值3.3333 e + 05年最大4.1111 e + 09 SALEDATE: x1 datetime值:91446分钟01 - 2015年1月- 2015位数09年7月- Max 31 - 12月- 2015

的SALEDATE列是datetime数组,这是不支持的金宝apprrcforest。创建列的月和日数据datetime值,然后删除SALEDATE列。

[~,NYCHousing2015.MM NYCHousing2015。DD] = ymd (NYCHousing2015.SALEDATE);NYCHousing2015。SALEDATE = [];

列区,社区,BUILDINGCLASSCATEGORY包含分类预测。显示类别的分类预测的数量。

长度(独特(NYCHousing2015.BOROUGH))

ans = 5

长度(独特(NYCHousing2015.NEIGHBORHOOD))

ans = 254

长度(独特(NYCHousing2015.BUILDINGCLASSCATEGORY))

ans = 48

与64多个类别,类别变量rrcforest函数使用一个近似分割方法,该方法可以减少鲁棒随机森林减少模型的准确性。删除社区列,其中包含254个类别的类别变量。

NYCHousing2015。社区=(];

火车一个健壮的随机森林模型NYCHousing2015。指定的比例异常的训练观察为0.1,并指定第一个变量(区)作为分类预测。第一个变量是一个数值数组,所以rrcforest假设这是一个连续变量,除非你指定变量作为分类变量。

rng (“默认”)%的再现性(Mdl, tf,分数)= rrcforest (NYCHousing2015,…ContaminationFraction = 0.1, CategoricalPredictors = 1);

Mdl是一个RobustRandomCutForest模型对象。rrcforest还返回异常指标(特遣部队)和异常分数(分数训练数据)NYCHousing2015。

画一个柱状图的分数值。创建一个垂直线的分数阈值对应于指定的分数。

直方图(分数)参照线(Mdl.ScoreThreshold,“r -”,(“阈值”Mdl.ScoreThreshold])

图包含一个坐标轴对象。坐标轴对象包含2直方图类型的对象,constantline。

如果你想确定异常污染有不同的分数(例如,0.01),你可以训练一个新的鲁棒随机森林模型。

rng (“默认”)%的再现性(newMdl newtf,分数)= rrcforest (NYCHousing2015,…ContaminationFraction = 0.01, CategoricalPredictors = 1);

如果你想确定异常有不同的分数阈值(例如,65),你可以通过RobustRandomCutForest模型对象,训练数据,和一个新的阈值isanomaly函数。

[newtf,分数]= isanomaly (Mdl、NYCHousing2015 ScoreThreshold = 65);

注意,改变污染分数或分数阈值变化异常指标,并且不影响异常的分数。因此,如果你不想计算异常分数再次利用rrcforest或isanomaly,您可以获得一个新的使用现有的评分值异常指标。

改变训练数据中的异常现象的一部分0.01。

newContaminationFraction = 0.01;

找到一个新的分数阈值使用分位数函数。

1-newContaminationFraction newScoreThreshold =分位数(分数)

newScoreThreshold = 63.2642

获得一个新的异常指标。

newtf = > newScoreThreshold得分;

发现新奇事物

打开生活的脚本

创建一个RobustRandomCutForest模型对象未被污染的训练观察使用rrcforest函数。然后检测小礼品(新数据异常)通过对象和新的数据对象的功能isanomaly。

1994年的人口普查数据加载存储census1994.mat。数据集包含了人口数据来自美国人口普查局预测一个人是否使每年超过50000美元。

负载census1994

census1994包含了训练数据集adultdata和测试数据集成人。

假设adultdata不包含异常值。火车一个健壮的随机森林模型adultdata。指定StandardizeData作为真正的标准化的输入数据。

rng (“默认”)%的再现性[Mdl, tf, s] = rrcforest (adultdata StandardizeData = true);

Mdl是一个RobustRandomCutForest模型对象。rrcforest还返回异常指标特遣部队和异常分数年代的训练数据adultdata。如果你不指定ContaminationFraction名称参数值大于0,rrcforest对待所有正常训练观察观察,这意味着所有的值特遣部队是逻辑0 (假)。这个函数设置分数阈值最大的分数值。显示阈值。

Mdl.ScoreThreshold

ans = 86.5315

发现异常成人通过训练有素的鲁棒随机森林模型。因为你指定的StandardizeData = true当你训练模型,isanomaly函数标准化输入数据通过使用预测手段和训练数据存储在的标准差μ和σ属性,分别。

[tf_test, s_test] = isanomaly (Mdl,成人);

的isanomaly函数的作用是:返回异常指标tf_test和分数s_test为成人。默认情况下,isanomaly确定观测分数高于阈值(Mdl.ScoreThreshold)异常。

创建直方图异常分数年代和s_test。创建一个垂直线阈值的异常分数。

直方图(年代,规范化=“概率”)举行在直方图(s_test正常化=“概率”)参照线(Mdl.ScoreThreshold“r -”,加入([“阈值”Mdl.ScoreThreshold]))传说(“训练数据”,“测试数据”位置=“西北”)举行从

图包含一个坐标轴对象。坐标轴对象包含3直方图类型的对象,constantline。这些对象代表训练数据,测试数据。

显示异常的观测指标的测试数据。

找到(tf_test)

ans = 3541

的异常分数分布测试数据与训练数据,isanomaly检测到少量的测试数据与异常默认阈值。

放大的异常和阈值附近的观察。

xlim ([92]) ylim (0.001 [0])

图包含一个坐标轴对象。坐标轴对象包含3直方图类型的对象,constantline。这些对象代表训练数据,测试数据。

您可以指定一个不同的阈值使用ScoreThreshold名称-值参数。例如,看到的指定异常分数阈值。

输入参数

全部折叠

`资源描述`- - - - - -预测数据
表

预测数据,指定为一个表。每一行的资源描述对应于一个观察,每一列对应一个预测变量。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

使用变量的一个子集资源描述通过使用,指定变量PredictorNames名称-值参数。

数据类型:表

`X`- - - - - -预测数据
数字矩阵

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

您可以使用PredictorNames名称-值参数分配预测变量的名称X。

数据类型:单|双

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

例子:NumLearners = 50, NumObservationsPerLearner = 100指定培训一个健壮的随机森林减少模型使用50每棵树的树和100年的观测结果。

`CategoricalPredictors`- - - - - -列表的分类预测
向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|`“所有”`

分类预测列表,该表中指定的值。

价值	描述
向量的正整数	向量中的每个条目是一个索引值表明相应的预测分类。索引值介于1和`p`,在那里`p`预测的数量被用来训练模型。如果`rrcforest`使用输入变量的子集作为预测因子,然后只使用函数索引预测指标子集。的`CategoricalPredictors`值不计算任何变量,函数不使用。
逻辑向量	一个`真正的`意味着相应的预测分类条目。向量的长度`p`。
字符矩阵	矩阵的每一行是一个预测变量的名字。名称必须匹配的条目`PredictorNames`。垫的名字与额外的空格字符矩阵的每一行有相同的长度。
字符串数组或单元阵列的特征向量	数组中的每个元素是一个预测变量的名字。名称必须匹配的条目`PredictorNames`。
`“所有”`	所有预测都直言。

默认情况下,如果预测数据表(资源描述),rrcforest假设变量是直言如果它是一个逻辑向量,无序分类向量,字符数组,字符串数组或单元阵列特征向量。如果预测数据是一个矩阵(X),rrcforest假设所有的预测都是连续的。识别任何其他预测分类预测,通过使用指定它们CategoricalPredictors名称-值参数。

与64多个类别,类别变量rrcforest函数使用一个近似分割方法,该方法可以减少模型的准确性。

例子:CategoricalPredictors = "所有"

数据类型:单|双|逻辑|字符|字符串|细胞

`CollusiveDisplacement`- - - - - -共谋的位移计算方法
`“最大”`(默认)|`“平均”`

共谋的位移计算方法,指定为“最大”或“平均”。

的rrcforest函数发现的最大变化“最大”)或平均变化(“平均”)每棵树的模型复杂,计算每个观测共谋的位移(异常分数)。有关详细信息,请参见异常分数。

例子:CollusiveDisplacement =“平均”

数据类型:字符|字符串

`ContaminationFraction`- - - - - -部分训练数据的异常
0(默认)|数字标量在[0,1]

分数异常的训练数据,指定为数字标量范围[0,1]。

如果ContaminationFraction值为0(默认)rrcforest对待所有正常训练观察观察,并设置分数阈值(ScoreThreshold属性值的森林)的最大价值分数。
如果ContaminationFraction值范围内(0,1),然后rrcforest确定阈值,函数检测培训的指定分数观测异常。

例子:ContaminationFraction = 0.1

数据类型:单|双

`NumLearners`- - - - - -健壮的随机砍树
One hundred.(默认)|正整数标量

数量的鲁棒随机砍树(削减健壮的随机森林模型),指定为一个正整数标量。

例子:NumLearners = 50

数据类型:单|双

`NumObservationsPerLearner`- - - - - -数量的观察每个健壮的随机砍树
`分钟(N, 256)`在哪里`N`是训练观察的数量吗(默认)|正整数系数大于或等于3

数量的观察从每个健壮的不重复训练数据随机砍树(树的健壮的随机森林减少模型),指定为一个正整数常数大于或等于3。

例子:NumObservationsPerLearner = 100

数据类型:单|双

`PredictorNames`- - - - - -预测变量的名字
字符串数组独特的名字|单元阵列独特的特征向量

预测变量名称,指定的唯一名称的字符串数组或单元阵列独特的特征向量。的功能PredictorNames取决于你如何提供预测数据。

如果你提供资源描述,那么你可以使用PredictorNames指定使用哪个预测变量。也就是说,rrcforest只使用的预测变量PredictorNames。
- PredictorNames必须是一个子集的Tbl.Properties.VariableNames。
- 默认情况下,PredictorNames包含所有预测变量的名称资源描述。
如果你提供X,那么你可以使用PredictorNames指定名称的预测变量X。
- 名字的顺序PredictorNames必须对应的列顺序X。也就是说,PredictorNames {1}的名字是X (: 1),PredictorNames {2}的名字是X (:, 2),等等。同时,大小(X, 2)和元素个数(PredictorNames)必须是相等的。
- 默认情况下,PredictorNames是{x1, x2,…}。

例子:PredictorNames = [" SepalLength”“SepalWidth”“PetalLength”“PetalWidth”]

数据类型:字符串|细胞

`StandardizeData`- - - - - -国旗标准化预测数据
`假`或`0`(默认)|`真正的`或`1`

标志标准化预测数据,指定为一个逻辑1(真正的)或0(假)。

如果你设置StandardizeData = true,rrcforest中心和尺度函数每个预测变量(X或资源描述对应的列)的平均值和标准偏差。函数不规范数据中包含的哑变量列生成的分类预测。

例子:StandardizeData = true

数据类型:逻辑

`UseParallel`- - - - - -国旗并行运行
`假`(默认)|`真正的`

国旗并行运行,指定为真正的或假。如果您指定UseParallel = true,rrcforest函数执行为通过循环迭代parfor。并行循环运行时并行计算工具箱™。

例子:UseParallel = true

数据类型:逻辑

输出参数

全部折叠

`森林`——训练健壮的随机森林模型
`RobustRandomCutForest`模型对象

训练有素的鲁棒随机森林模型,作为一个返回RobustRandomCutForest模型对象。

您可以使用对象的功能isanomaly与森林在新的数据发现异常。

`特遣部队`——异常指标
逻辑列向量

异常指标,作为一个逻辑返回列向量。一个元素的特遣部队是真正的当观察相应的行资源描述或X是一个异常,假否则。特遣部队一样的长度吗资源描述或X。

rrcforest标识的观察与分数高于阈值(ScoreThreshold属性值的森林)异常。函数确定阈值检测指定的分数(ContaminationFraction名称-值参数)的训练观察异常。

`分数`——异常分数
数字列向量在[0,`正`)

异常分数,作为一个数字列向量与返回值的范围[0,正)。分数一样的长度吗资源描述或X的每个元素分数包含一个观测的异常分数对应的行资源描述或X。小积极值表示一个正常的观察,和一个大正值显示异常。

算法

rrcforest认为南,”(空字符向量),”“(空字符串),<失踪>,<定义>值资源描述和南值X缺失值。

rrcforest使用观察与缺失值找到分裂这些观测变量的有效值。函数可能将这些观察一个分支节点,不是一个叶子节点。然后rrcforest计算比率(Disp(x,C)/ |C|),遍历每个分支节点到根节点的树。函数的地方观察与根节点的所有缺失值。因此,比率和异常分数成为训练观察每棵树的数量,这是训练的最大可能的异常分数健壮的随机森林模型。您可以指定数量的训练观察每棵树使用NumObservationsPerLearner名称-值参数。

引用

[1]·古Sudipto, n . Mishra g·罗伊,o . Schrijvers。“鲁棒随机森林异常检测基于流,”美国第33机器学习国际会议48(2016年6月):2712 - 21所示。

[2]Bartos,马修·D。,一个。μllapudi, and S. C. Troutman. "rrcf: Implementation of the Robust Random Cut Forest Algorithm for Anomaly Detection on Streams."开源软件杂志》上4,没有。35 (2019):1336。

扩展功能

自动并行支持金宝app
加速代码通过自动运行并行计算使用并行计算工具箱™。

并行运行,设置UseParallel名称-值参数真正的在调用这个函数。

关于并行计算的更一般的信息,请参阅MATLAB函数自动并行支持运行金宝app(并行计算工具箱)。

版本历史

介绍了R2023a

另请参阅

主题

无监督异常检测

rrcforest

语法

描述

例子

检测异常值

发现新奇事物

输入参数

资源描述- - - - - -预测数据表

X- - - - - -预测数据数字矩阵

名称-值参数

CategoricalPredictors- - - - - -列表的分类预测向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|“所有”

CollusiveDisplacement- - - - - -共谋的位移计算方法“最大”(默认)|“平均”

ContaminationFraction- - - - - -部分训练数据的异常0(默认)|数字标量在[0,1]

NumLearners- - - - - -健壮的随机砍树One hundred.(默认)|正整数标量

NumObservationsPerLearner- - - - - -数量的观察每个健壮的随机砍树分钟(N, 256)在哪里N是训练观察的数量吗(默认)|正整数系数大于或等于3

PredictorNames- - - - - -预测变量的名字字符串数组独特的名字|单元阵列独特的特征向量

StandardizeData- - - - - -国旗标准化预测数据假或0(默认)|真正的或1

UseParallel- - - - - -国旗并行运行假(默认)|真正的

输出参数

森林——训练健壮的随机森林模型RobustRandomCutForest模型对象

特遣部队——异常指标逻辑列向量

分数——异常分数数字列向量在[0,正)

更多关于

鲁棒随机森林减少

异常分数

算法

引用

扩展功能

自动并行支持金宝app加速代码通过自动运行并行计算使用并行计算工具箱™。

版本历史

另请参阅

主题

`资源描述`- - - - - -预测数据
表

`X`- - - - - -预测数据
数字矩阵

`CategoricalPredictors`- - - - - -列表的分类预测
向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|`“所有”`

`CollusiveDisplacement`- - - - - -共谋的位移计算方法
`“最大”`(默认)|`“平均”`

`ContaminationFraction`- - - - - -部分训练数据的异常
0(默认)|数字标量在[0,1]

`NumLearners`- - - - - -健壮的随机砍树
One hundred.(默认)|正整数标量

`NumObservationsPerLearner`- - - - - -数量的观察每个健壮的随机砍树
`分钟(N, 256)`在哪里`N`是训练观察的数量吗(默认)|正整数系数大于或等于3

`PredictorNames`- - - - - -预测变量的名字
字符串数组独特的名字|单元阵列独特的特征向量

`StandardizeData`- - - - - -国旗标准化预测数据
`假`或`0`(默认)|`真正的`或`1`

`UseParallel`- - - - - -国旗并行运行
`假`(默认)|`真正的`

`森林`——训练健壮的随机森林模型
`RobustRandomCutForest`模型对象

`特遣部队`——异常指标
逻辑列向量

`分数`——异常分数
数字列向量在[0,`正`)

自动并行支持金宝app
加速代码通过自动运行并行计算使用并行计算工具箱™。