UMAP:强壮的可视化反常探测用具
简介数据降维最为紧急的是低沉数据的维度的同时尽或许保有大批的原始讯息,而此中最为众人熟知的是PCA和tSNE,不过这两者都存在一些题目,
PCA的速率相对很快,但价格是数据削减后会丢不少底层的布局讯息;tSNE能够保存数据的底层布局,但速率特别慢;UMAP是年被提议的降维和可视化算法,它行使Uniform流形类似和投影(UMAP),既能够得到PCA的速率上风,同时还能够保存尽或许多的数据讯息,并且其可视化成效也特别雅观,以下:
除此除外,UMAP在不少角逐中也得到了普及运用,譬如在高维数据会合更快更正确的举行反常值探测。
UMAPUniformManifoldApproximationandProjection(UMAP)是一种降维本领,它不单能够举行降维,并且可用于可视化,好似于t-SNE,也可用于正常非线性降维。UMAP基于对数据的三个假定
数据平匀散布在黎曼流形上(Riemannianmanifold);黎曼度量是部分const(或能够类似为部分const);流形是部分贯通的。遵循这些假定,能够用朦胧拓扑布局对流形举行建模。UMAP的益处囊括:
速率很快,相较于tSNE等快了特别多;由于保存了尽或许多的数据讯息,其可视化成效更好;还能够用于反常探测等;但UMAP的题目在于RAM耗损或许有些大。特为是在装置和创造贯通图等图表时,UMAP会耗损大批内存。
代码01
UMAP可视化
importumapimportumap.plotfromsklearn.imputeimportSimpleImputerfromsklearn.pipelineimportmake_pipelinefromsklearn.preprocessingimportQuantileTransformerpipe=make_pipeline(SimpleImputer(),QuantileTransformer())X_processed=pipe.fit_transform(X)manifold=umap.UMAP().fit(X_processed,y)umap.plot.points(manifold,labels=y,theme="fire")
02
和IsolationForest一同做反常探测
fromsklearn.ensembleimportIsolationForestpipe=make_pipeline(SimpleImputer(),QuantileTransformer(),umap.UMAP(n_
转载请注明:http://www.aideyishus.com/lkzp/965.html