关闭
当前位置:首页 - 国际国内新闻 - 正文

古北水镇,机器学习:处理不平衡数据的5个重要技能,乐高机器人

admin 2019-04-08 189°c
点击上方重视,All in AI我国

数据散布不平衡是机器学习工作流中的一个重要问题。缙云所谓胆固醇高不平衡的数据集,意思便是两个类中一个类的实例比另一个要高,换句话说,在一个分类数据集之中,一切类的调查值的数先有09后有天量是不一样的。这个问题不只存在于二进制类数据中,也存在于多类数据中。

本文中将列出一些重要的技术,帮助您处理不平衡的古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人数据。

机器学习:处理不平衡数据的5个重要技术

1、过采样(Oversampling)

此技术用于修正不相等的数据潮汐类以创立乃木坂46平衡的古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人数据集。当数据量缺乏时,过采样法经过增大稀有样本的巨细来到达平衡。

过采样的一种首要技术是SMOTE(组成少量过采样技术,Synthetic Minority Over-sampling TEchnique)。在这种技术中,少量类是经过生成组成算例而不是经过替换来进行过采样的,并且关于每一个少量类的调查值,它都计算出k最近邻(k-NN)。但这种办法仅限于假定恣意两个正实例之间的部分空间归于少量类、练习数据不是线性可分的情况下,这种假定或许并不总是正确的。依据所需的过采样量,随机挑选k-NN的邻域。


机器学习:处理不平衡数据的5个重要技术

优势

无信息损庐山在哪失

削减过度采样引起的过拟合台妹中文。

深化研究S古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人MOTE技术,请点击 https://arxiv.org/pdf/1106.1813.pdfhttps://arxiv.org/pdf/1106.1813.pdf 。

2、欠采韩童生样(Undersamp馔ling)

与过采样不同,这种技术经过削减类的数量来处理一个不平爱爱撸衡的数据集。分类问题有多种办法,如聚类中心和Tomek links。聚类中心办法用K-means算法的聚类中心替代样本的聚类;Tomek link办法去除类之间不需要的堆叠,直到一切最小间隔的最近邻大凉汉骑都归于同一个类。


优势

能够经过削减练习数据集的数量来改善运行时。

有助于处理回忆问题

有关欠采样的更多信息,请单击 https://towardsdatascience.com/under-sampling-a-古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人perform谢洁瑛ance-booster-on-imbalanced-data-a79ff1559fab

3、本钱灵敏学习技术(Cost-Sensitive Learning)

本钱灵敏学习(CSL)经过最小化总本钱来将误分类本钱参加考虑要素中,这种技术的方针首要是寻求将实例分类为一组已知类时的高精度,它在机器学习算法中发挥着重要的效果,包含实践数据发掘类使用。

该办法将FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的本钱表明为瑞思娜本钱矩阵,如下图所示,其间C(i,j)表明对实杨宇霆例进行分类的误分类本钱,“i”为猜测类,“j”为实践类。这是一个二元分类的本钱矩阵的比如。


优势

该办法避免了参数的预先挑选和决议计划超平面的主动调整。

深化了解CSL技术,请杭州19楼单击 这儿 。

4、集成学习技术(Ensemble Learning)

这个yy小说依据集成的办法是处理不平衡数据集的另一种技术,集成技术是将多个分类器的成果或功能结合起来,以进步单个分类器的功能。该办法经过安装不同的分类器来修正单个分类器的概括才能。古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人它首要结合了多个根底学习器的输出。集成学习有多种办法,如Bagging、Boosting等。

Bagging(Bootstrap Aggregating),试尿不尽是怎么回事图在较小的数古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人据集上完成类似的学习器,然后取一切猜测的平均值。Boosting (Adaboost)是一种迭代技术,它依据最终的分类调整调查值的权重。该办法削减了偏置差错,建立了较强的猜测模型。

优势

这是一个更安稳的模型

猜测成果更好

了解有关此技术的更多信息,请单击 此处 。

5、组合类办法(Combined Class Metho尤ds)

该办法将各种办法组合在一起,能够更好地处理smd128不平衡数据。例如,SMOTE能够与其他办法进行组合,如MSMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等,来消除不平衡数据会集的噪声。MSMOTE是SMOTE的改善版别,它将少量类的样本分为三类,如安全样本、埋伏噪声样本和鸿沟样本。

优势

不丢掉有用信息

很好的概括

编译出品

原文作者:AMBIKA CHOUDHURY 来历:Anal古北水镇,机器学习:处理不平衡数据的5个重要技术,乐高机器人ytics India Magazine

admin 14文章 0评论 主页

相关文章

  用户登录