isanomaly

发现使用健壮的异常数据随机森林

自从R2023a

所有的页面崩溃

语法

tf = isanomaly(森林资源)

tf = isanomaly(森林,X)

tf = isanomaly (___名称=值)

(tf,分数)= isanomaly (___)

描述

例子

特遣部队= isanomaly (森林,资源描述)表中发现异常资源描述使用RobustRandomCutForest模型对象森林并返回逻辑数组特遣部队的元素是真正的在检测到异常时在相应的行资源描述。如果您创建您必须使用这种语法森林通过一个表rrcforest函数。

特遣部队= isanomaly (森林,X)发现异常的矩阵X。如果您创建您必须使用这种语法森林通过矩阵的rrcforest函数。

例子

特遣部队= isanomaly (___,名称=值)指定选项使用一个或多个名称参数除了任何输入参数组合在前面的语法。例如,设置ScoreThreshold= 0.5识别异常观测分数在0.5以上。

(特遣部队,分数)= isanomaly (___)还返回一个异常分数范围内[0,正)为每一个观察资源描述或X。小积极值表示一个正常的观察,和一个大正值显示异常。

例子

全部折叠

发现新奇事物

打开生活的脚本

创建一个RobustRandomCutForest模型对象未被污染的训练观察使用rrcforest函数。然后检测小礼品(新数据异常)通过对象和新的数据对象的功能isanomaly。

1994年的人口普查数据加载存储census1994.mat。数据集包含了人口数据来自美国人口普查局预测一个人是否使每年超过50000美元。

负载census1994

census1994包含了训练数据集adultdata和测试数据集成人。

假设adultdata不包含异常值。火车一个健壮的随机森林模型adultdata。指定StandardizeData作为真正的标准化的输入数据。

rng (“默认”)%的再现性[Mdl, tf, s] = rrcforest (adultdata StandardizeData = true);

Mdl是一个RobustRandomCutForest模型对象。rrcforest还返回异常指标特遣部队和异常分数年代的训练数据adultdata。如果你不指定ContaminationFraction名称参数值大于0,rrcforest对待所有正常训练观察观察,这意味着所有的值特遣部队是逻辑0 (假)。这个函数设置分数阈值最大的分数值。显示阈值。

Mdl.ScoreThreshold

ans = 86.5315

发现异常成人通过训练有素的鲁棒随机森林模型。因为你指定的StandardizeData = true当你训练模型,isanomaly函数标准化输入数据通过使用预测手段和训练数据存储在的标准差μ和σ属性,分别。

[tf_test, s_test] = isanomaly (Mdl,成人);

的isanomaly函数的作用是:返回异常指标tf_test和分数s_test为成人。默认情况下,isanomaly确定观测分数高于阈值(Mdl.ScoreThreshold)异常。

创建直方图异常分数年代和s_test。创建一个垂直线阈值的异常分数。

直方图(年代,规范化=“概率”)举行在直方图(s_test正常化=“概率”)参照线(Mdl.ScoreThreshold“r -”,加入([“阈值”Mdl.ScoreThreshold]))传说(“训练数据”,“测试数据”位置=“西北”)举行从

图包含一个坐标轴对象。坐标轴对象包含3直方图类型的对象,constantline。这些对象代表训练数据,测试数据。

显示异常的观测指标的测试数据。

找到(tf_test)

ans = 3541

的异常分数分布测试数据与训练数据,isanomaly检测到少量的测试数据与异常默认阈值。

放大的异常和阈值附近的观察。

xlim ([92]) ylim (0.001 [0])

图包含一个坐标轴对象。坐标轴对象包含3直方图类型的对象,constantline。这些对象代表训练数据,测试数据。

您可以指定一个不同的阈值使用ScoreThreshold名称-值参数。例如,看到的指定异常分数阈值。

指定异常分数阈值

打开生活的脚本

指定的阈值异常分数通过使用ScoreThreshold名称-值参数isanomaly。

1994年的人口普查数据加载存储census1994.mat。数据集包含了人口数据来自美国人口普查局预测一个人是否使每年超过50000美元。

负载census1994

census1994包含了训练数据集adultdata和测试数据集成人。

火车一个健壮的随机森林模型adultdata。指定StandardizeData作为真正的标准化的输入数据。

rng (“默认”)%的再现性[Mdl, tf,分数]= rrcforest (adultdata StandardizeData = true);

画一个柱状图的分数值。在默认的分数阈值创建一条垂直线。

直方图(分数,正常化=“概率”);参照线(Mdl.ScoreThreshold“r -”,加入([“阈值”Mdl.ScoreThreshold]))

图包含一个坐标轴对象。坐标轴对象包含2直方图类型的对象,constantline。

发现的异常测试数据使用训练有素的鲁棒随机森林模型。使用不同的阈值从默认阈值训练模型时获得的。

首先,确定分数阈值使用isoutlier函数。

[~,~,U] = isoutlier(分数)

U = 14.0904

指定的值ScoreThreshold名称-值参数为U。

[tf_test, scores_test] = isanomaly (Mdl、成人ScoreThreshold = U);直方图(scores_test正常化=“概率”)参照线(U,“r -”,加入([“阈值”U]))

图包含一个坐标轴对象。坐标轴对象包含2直方图类型的对象,constantline。

输入参数

全部折叠

`森林`- - - - - -训练有素的鲁棒随机森林模型
`RobustRandomCutForest`模型对象

训练有素的鲁棒随机森林模型,指定为一个RobustRandomCutForest模型对象。

`资源描述`- - - - - -预测数据
表

预测数据,指定为一个表。每一行的资源描述对应于一个观察,每一列对应一个预测变量。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

如果你训练森林使用一个表,那么您必须提供预测数据通过使用资源描述,而不是X。所有的预测变量资源描述必须有相同的变量名和数据类型的训练数据。然而,列顺序资源描述不需要训练数据对应的列顺序。

数据类型:表

`X`- - - - - -预测数据
数字矩阵

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

如果你训练森林使用一个矩阵,那么你必须通过提供预测数据X,而不是资源描述。的变量的列X必须有相同的订单作为训练数据。

数据类型:单|双

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

例子:ScoreThreshold = 0.75, UseParallel = true设置阈值的异常分数0.75和运行并行计算。

`ScoreThreshold`- - - - - -阈值异常分数
`forest.ScoreThreshold`(默认)|数字标量范围在[0,`正`)

阈值的异常分数,指定为数字标量范围[0,正)。isanomaly确定观测与分数高于阈值异常。

默认值是ScoreThreshold属性值的森林。

例子:ScoreThreshold = 50

数据类型:单|双

`UseParallel`- - - - - -国旗并行运行
`假`(默认)|`真正的`

国旗并行运行,指定为真正的或假。如果您指定UseParallel = true,isanomaly函数执行为通过循环迭代parfor。并行循环运行时并行计算工具箱™。

例子:UseParallel = true

数据类型:逻辑

输出参数

全部折叠

`特遣部队`——异常指标
逻辑列向量

异常指标,作为一个逻辑返回列向量。一个元素的特遣部队是真正的当观察相应的行资源描述或X是一个异常,假否则。特遣部队一样的长度吗资源描述或X。

isanomaly标识的观察与分数高于阈值(ScoreThreshold作为异常值)。

`分数`——异常分数
数字列向量在[0,`正`)

异常分数,作为一个数字列向量与返回值的范围[0,正)。分数一样的长度吗资源描述或X的每个元素分数包含一个观测的异常分数对应的行资源描述或X。小积极值表示一个正常的观察,和一个大正值显示异常。

算法

isanomaly认为南,”(空字符向量),”“(空字符串),<失踪>,<定义>值资源描述和南值X缺失值。

isanomaly使用观察与缺失值找到分裂这些观测变量的有效值。函数可能将这些观察一个分支节点,不是一个叶子节点。然后isanomaly计算比率(Disp(x,C)/ |C|),遍历每个分支节点到根节点的树。函数的地方观察与根节点的所有缺失值。因此,比率和异常分数成为训练观察每棵树的数量,这是训练的最大可能的异常分数健壮的随机森林模型。您可以指定数量的训练观察每棵树使用NumObservationsPerLearner名称-值参数。

引用

[1]·古Sudipto, n . Mishra g·罗伊,o . Schrijvers。“鲁棒随机森林异常检测基于流,”美国第33机器学习国际会议48(2016年6月):2712 - 21所示。

[2]Bartos,马修·D。,A. Mullapudi, and S. C. Troutman. "rrcf: Implementation of the Robust Random Cut Forest Algorithm for Anomaly Detection on Streams."开源软件杂志》上4,没有。35 (2019):1336。

扩展功能

自动并行支持金宝app
加速代码通过自动运行并行计算使用并行计算工具箱™。

并行运行,设置UseParallel名称-值参数真正的在调用这个函数。

关于并行计算的更一般的信息,请参阅MATLAB函数自动并行支持运行金宝app(并行计算工具箱)。

版本历史

介绍了R2023a

另请参阅

主题

无监督异常检测

isanomaly

语法

描述

例子

发现新奇事物

指定异常分数阈值

输入参数

`森林`- - - - - -训练有素的鲁棒随机森林模型
`RobustRandomCutForest`模型对象

`资源描述`- - - - - -预测数据
表

`X`- - - - - -预测数据
数字矩阵

名称-值参数

`ScoreThreshold`- - - - - -阈值异常分数
`forest.ScoreThreshold`(默认)|数字标量范围在[0,`正`)

`UseParallel`- - - - - -国旗并行运行
`假`(默认)|`真正的`

输出参数

`特遣部队`——异常指标
逻辑列向量

`分数`——异常分数
数字列向量在[0,`正`)

更多关于

鲁棒随机森林减少

异常分数

算法

引用

扩展功能

自动并行支持金宝app
加速代码通过自动运行并行计算使用并行计算工具箱™。

版本历史

另请参阅

主题

isanomaly

语法

描述

例子

发现新奇事物

指定异常分数阈值

输入参数

森林- - - - - -训练有素的鲁棒随机森林模型RobustRandomCutForest模型对象

资源描述- - - - - -预测数据表

X- - - - - -预测数据数字矩阵

名称-值参数

ScoreThreshold- - - - - -阈值异常分数forest.ScoreThreshold(默认)|数字标量范围在[0,正)

UseParallel- - - - - -国旗并行运行假(默认)|真正的

输出参数

特遣部队——异常指标逻辑列向量

分数——异常分数数字列向量在[0,正)

更多关于

鲁棒随机森林减少

异常分数

算法

引用

扩展功能

自动并行支持金宝app加速代码通过自动运行并行计算使用并行计算工具箱™。

版本历史

另请参阅

主题

`森林`- - - - - -训练有素的鲁棒随机森林模型
`RobustRandomCutForest`模型对象

`资源描述`- - - - - -预测数据
表

`X`- - - - - -预测数据
数字矩阵

`ScoreThreshold`- - - - - -阈值异常分数
`forest.ScoreThreshold`(默认)|数字标量范围在[0,`正`)

`UseParallel`- - - - - -国旗并行运行
`假`(默认)|`真正的`

`特遣部队`——异常指标
逻辑列向量

`分数`——异常分数
数字列向量在[0,`正`)

自动并行支持金宝app
加速代码通过自动运行并行计算使用并行计算工具箱™。