模型建立与评估

特征选择、特征工程、模型选择、超参数优化、交叉验证、预测性能评估和分类精度比较测试

在构建高质量的预测分类模型时，选择正确的特征(或预测器)和调优超参数(未估计的模型参数)非常重要。

特征选择和超参数调优可以产生多个模型。你可以比较k-fold误分类率，受试者工作特征(ROC)曲线，或模型之间的混淆矩阵。或者，进行统计测试，以检测一个分类模型是否显著优于另一个分类模型。

要在训练分类模型之前设计新特征，请使用gencfeatures．

要以交互方式构建和评估分类模型，请使用分类学习者应用程序。

若要自动选择具有调优超参数的模型，请使用fitcauto．这个函数尝试选择具有不同超参数值的分类模型类型，并返回预期在新数据上表现良好的最终模型。使用fitcauto当你不确定哪种分类器类型最适合你的数据时。

要调优特定模型的超参数，请选择超参数值并使用这些值交叉验证模型。例如，要调优SVM模型，请选择一组框约束和内核尺度，然后为每对值交叉验证模型。某些统计和机器学习工具箱™分类功能通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。然而，用于实现贝叶斯优化的主要函数，bayesopt，在其他应用程序中使用足够灵活。看到贝叶斯优化流程．

要解释分类模型，可以使用石灰，沙普利,plotPartialDependence．

应用程序

分类学习者

训练模型使用监督机器学习对数据进行分类

功能

全部展开

特征选择

`fscchi2`	使用卡方检验进行单变量特征排序分类
`fscmrmr`	采用最小冗余最大相关性(MRMR)算法对特征进行分类排序
`fscnca`	使用邻域成分分析进行特征选择分类
`oobPermutedPredictorImportance`	通过对随机森林分类树的袋外预测器观测的排列估计预测器重要性
`predictorImportance`	分类树预测因子重要性的估计
`predictorImportance`	决策树分类集合中预测因子重要性的估计
`sequentialfs`	使用自定义标准的顺序特征选择
`relieff`	使用ReliefF或RReliefF算法对预测因子的重要性进行排序

工程特性

`gencfeatures`	执行自动特征工程进行分类
`描述`	描述生成的特性
`变换`	使用生成的特征转换新数据

自动模型选择

fitcauto 利用优化的超参数自动选择分类模型

Hyperparameter优化

`bayesopt`	使用贝叶斯优化选择最优的机器学习超参数
`hyperparameters`	优化拟合函数的变量描述
`optimizableVariable`	变量描述`bayesopt`或其他优化器

交叉验证

`crossval`	使用交叉验证估计损失
`cvpartition`	为交叉验证划分数据
`重新分区`	重新划分数据以进行交叉验证
`测验`	交叉验证的测试指标
`培训`	交叉验证的训练指标

模型的解释

局部可解释模型不可知解释(LIME)

`石灰`	局部可解释模型不可知解释(LIME)
`适合`	局部可解释模型不可知解释(LIME)拟合简单模型
`情节`	局部可解释模型不可知解释(LIME)的图结果

沙普利值

`沙普利`	沙普利值
`适合`	计算查询点的Shapley值
`情节`	Plot Shapley价值观

部分依赖

`partialDependence`	计算部分依赖关系
`plotPartialDependence`	创建部分依赖图(PDP)和个别条件期望图(ICE)

分类性能评估

`confusionchart`	为分类问题创建混淆矩阵图
`confusionmat`	计算分类问题的混淆矩阵
`perfcurve`	接收者工作特征(ROC)曲线或分类器输出的其他性能曲线