本文为您介绍Designer支持的组件列表。
组件类型 | 组件 | 描述 |
自定义组件 | 支持在AI资产管理中创建自定义组件,自定义组件创建成功后,您可以在Designer中将该组件与官方组件串联使用进行模型训练。 | |
源/目标 | 该组件用来读取对象存储OSS Bucket路径下的文件或文件夹。 | |
该组件支持从OSS、HTTP、HDFS读取CSV类型的文件数据。 | ||
该组件用于读取MaxCompute表数据,默认读取本项目的表数据。 | ||
该组件支持将上游数据写入MaxCompute中。 | ||
数据预处理 | 该组件按照给定的比例或者数目,对输入进行随机独立采样。 | |
以加权方式生成采样数据。 | ||
该组件可以对数据按照过滤表达式进行筛选,并且您可以修改输出字段名称。 | ||
给定一个分组列,该组件按照这些列的不同值,将输入数据分成不同的组,并在每组中分别进行随机采样。 | ||
该组件将两张表通过关联信息,合成一张表,并确定输出的字段,与SQL的JOIN语句功能类似。 | ||
该组件将两张表的数据按列合并,需要表的行数保持一致,否则报错。如果两张表只有一张存在分区,则分区表需要连接第二个输入端口。 | ||
该组件是将两张表的数据按行合并,左表及右表选择输出的字段个数以及类型应保持一致。整合了UNION和UNION ALL的功能。 | ||
该组件是可以将任意类型特征转成STRING、DOUBLE和INT特征,并支持转换异常时的缺失值填充。 | ||
该组件是提供的增加序号列组件,您可以在数据表的第一列追加ID列。 | ||
该组件是对数据进行随机拆分,用于生成训练和测试集。 | ||
您可以通过可视化或PAI命令的方式,配置该组件参数。 | ||
该组件支持将稠密数据或稀疏数据进行归一化处理。 | ||
该组件分为可分化方式和PAI命令方式生成标准化实例。 | ||
该组件可以将KV(Key:Value)格式的表转换为普通表格式。 | ||
该组件分为可分化方式和PAI命令方式,可以转化普通表为KV(Key:Value)格式的表。 | ||
特征工程 | 特征重要性过滤组件为线性特征重要性、GBDT特征重要性和随机森林特征重要性等组件提供过滤功能,支持过滤TopN的特征。 | |
该组件是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。 | ||
您可以通过该组件对稠密或稀疏的数值类特征进行常见的尺度变换。 | ||
该组件是将连续特征按照一定的规则进行离散化。 | ||
该组件可以将输入特征中包含异常的数据平滑到一定区间,支持稀疏和稠密数据格式。 | ||
该组件是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵求对角化的推广。 | ||
该组件用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。 | ||
该组件包括线性回归和二分类逻辑回归,支持稀疏和稠密数据格式。 | ||
该组件用于统计离散特征的分布情况。 | ||
您可以通过该组件计算特征重要性。 | ||
该组件将根据您使用的不同特征选择方法,从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据。 | ||
该组件是将非线性特征通过GBDT编码成线性特征。 | ||
您可以通过该组件后数据会变成稀疏,输出结果也是KV的稀疏结构。 | ||
统计分析 | 通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。 | |
该组件用于衡量两个变量的总体误差。 | ||
该组件是采用经验分布和内核分布两种算法。 | ||
该组件用于统计全表,或某些选中的列。 | ||
该组件用于变量为类别型变量的场景,旨在检验单个多项分类型变量在各分类间的实际观测次数与理论次数是否一致,其零假设为观测次数与理论次数无差异。 | ||
箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。 | ||
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图。 | ||
相关系数算法用于计算一个矩阵中每列之间的相关系数,取值范围为[-1,1]。系统计算时,count数按两列间同时非空的元素个数计算,两两列之间可能不同。 | ||
该组件基于统计学原理用来检验两个样本的均值是否有显著差异。 | ||
该组件旨在检验某个变量的总体均值与某个指定值之间是否存在显著差异,其检验的样本必须总体服从正态分布。 | ||
该组件通过观测值判断总体是否服从正态分布,是统计判决中重要的一种特殊的拟合优度假设检验。 | ||
通过该组件,您可以直观地看到一个国家或地区收入分配状况。 | ||
该组件是统计学术语,用于计算数据表列数据的百分位。 | ||
该组件是一种线性相关系数,用于反映两个变量线性相关程度的统计量。 | ||
该组件(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 | ||
机器学习 | 该组件的输入为训练模型和预测数据,输出为预测结果。 | |
该组件算法在Boosting算法的基础上进行了扩展和升级,具有较好的易用性和鲁棒性,被广泛用在各种机器学习生产系统和竞赛领域。当前支持分类和回归。 | ||
该组件算法在Boosting算法的基础上进行了扩展和升级,具有较好的易用性和鲁棒性,被广泛用在各种机器学习生产系统和竞赛领域。当前支持分类和回归。 | ||
该组件是基于统计学习理论的一种机器学习方法,通过寻求结构风险最小化,提高学习机泛化能力,从而实现经验风险和置信范围最小化。 | ||
该组件是一个二分类算法,支持稀疏及稠密数据格式。 | ||
该组件的原理是设置阈值,如果特征值大于阈值,则为正例,反之为负例。 | ||
参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS实现的迭代算法。 | ||
该组件是经典的二分类算法,广泛应用于广告及搜索场景。 | ||
参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS实现的迭代算法。 | ||
该组件进行分类的原理是针对预测表的每行数据,从训练表中选择与其距离最近的K条记录,将这K条记录中类别数量最多的类,作为该行的类别。 | ||
该组件是一个二分类算法,PAI提供的逻辑回归可以支持多分类,且支持稀疏及稠密数据格式。 | ||
该组件是一个包括多决策树的分类器,其分类结果由单棵树输出类别的众数决定。 | ||
该组件是一种基于独立假设的贝叶斯定理的概率分类算法。 | ||
该组件会首先随机选择K个对象作为每个簇的初始聚类中心,然后计算剩余对象与各簇中心的距离,将其分配至距离最近的簇,再重新计算每个簇的聚类中心。 | ||
您可以使用DBSCAN组件构建聚类模型。 | ||
您可以使用高斯混合模型训练组件实现模型分类。 | ||
您可以使用DBSCAN预测组件基于DBSCAN训练模型来预测新的点数据所属的簇。 | ||
您可以使用高斯混合模型预测组件基于训练好的高斯混合模型进行聚类预测。 | ||
该组件是一种迭代决策树算法,适用于线性及非线性回归场景。 | ||
该组件是分析因变量和多个自变量之间的线性关系模型。 | ||
该组件致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS实现的迭代算法。 | ||
该组件是分析因变量和多个自变量之间的线性关系模型,参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务。 | ||
该组件是通过计算AUC、KS及F1 Score指标,输出KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart。 | ||
该组件是指基于预测结果和原始结果,评估回归算法模型的优劣性,从而输出评估指标及残差直方图。 | ||
该组件是基于原始数据和聚类结果,评估聚类模型的优劣性,从而输出评估指标。 | ||
该组件适用于监督学习,与无监督学习中的匹配矩阵对应。 | ||
该组件是指基于分类模型的预测结果和原始结果,评估多分类算法模型的优劣性,从而输出评估指标(例如Accuracy、Kappa及F1-Score)。 | ||
深度学习 | 阿里云机器学习平台支持深度学习框架,您可以使用这些框架及硬件资源来使用深度学习算法。 | |
时间序列 | 该组件是基于开源X-13ARIMA-SEATS封装的针对季节性调整的Arima算法。 | |
该组件包括自动ARIMA模型选择程序,主要基于TRMO(1996)及后续修订中实施的Gomez和Maravall(1998)的程序。 | ||
该组件对每一行的MTable数据,进行Prophet时间序列预测,给出下一时间段的预测结果。 | ||
该组件将Table按照分组列聚合成MTable。 | ||
该组件将MTable展开成Table。 | ||
推荐方法 | FM(Factorization Machine)算法兼顾特征之间的相互作用,是一种非线性模型,适用于电商、广告及直播的推荐场景。 | |
交替最小二乘ALS(Alternating Least Squares)算法的原理是对稀疏矩阵进行模型分解,评估缺失项的值,从而得到基本的训练模型。 | ||
该组件是一种Item召回算法,您可以使用swing训练组件基于User-Item-User原理衡量Item的相似性。 | ||
该组件是swing的批处理预测组件,您可以使用该组件基于swing训练模型和预测数据进行离线预测。 | ||
etrec是基于item的协同过滤算法,输入为两列,输出为item之间的相似度TopN。 | ||
向量召回评估组件计算召回的hitrate结果。hitrate作为结果好坏的评价,hitrate越高表示训练产出的向量去召回向量的结果越准确。 | ||
异常检测 | 该组件是根据数据样本的局部异常因子值(Local Outlier Factor, LOF)判断样本是否异常。 | |
该组件使用sub-sampling算法,降低了算法的计算复杂度,可以识别数据中的异常点,在异常检测领域有显著的应用效果。 | ||
该组件与传统SVM不同,是一种非监督的学习算法。您可以使用One-Class SVM异常检测通过学习边界对异常点进行预测。 | ||
自然语言处理 | 该组件旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息,新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要预测组件,调用指定预训练模型对新闻文本进行预测,从而生成新闻标题。 | |
使用该组件对生成的机器阅读理解训练模型进行离线预测。 | ||
该组件旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息。新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要训练组件进行模型训练,生成新闻标题,用来概括新闻的中心思想和重点信息。 | ||
使用该组件训练机器阅读理解模型,该模型针对给定的文档及问题,进行快速理解与问答。 | ||
该组件基于AliWS(Alibaba Word Segmenter)词法分析系统,对指定列的内容进行分词,分词后的各个词语之间以空格分隔。 | ||
该组件用于将三元组表(row,col,value)转换为kv表(row,[col_id:value])。 | ||
该组件是机器学习领域的一个基本操作,主要用于信息检索、自然语言处理和生物信息学等领域。 | ||
该组件用于计算字符串相似度并筛选出最相似的Top N个数据。 | ||
该组件是文本分析中的一个预处理方法,用于过滤分词结果中的噪声(例如的、是或啊)。 | ||
该组件是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。 | ||
该组件是文献中简单连贯的短文,能够全面准确地反映该文献的中心思想。自动文摘利用计算机自动从原始文献中提取摘要内容。 | ||
该组件是自然语言处理中的重要技术之一,具体是指从文本中将与这篇文章意义相关性较强的一些词抽取出来。 | ||
将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。 | ||
基于算法语义向量结果(如Word2Vec生成的词向量),计算给定的词(或者句子)的扩展词(或者扩展句),即计算其中某一向量距离最近的向量集合。其中一个用法是,基于Word2Vec生成的词向量结果,根据输入的词返回最为相似的词列表。 | ||
您可以通过Doc2Vec算法组件将文章映射为向量。输入为词汇表,输出为文档向量表、词向量表或词汇表。 | ||
条件随机场CRF(conditional random field)是给定一组输入随机变量条件下,另一组输出随机变量条件的概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。 | ||
文章相似度是在字符串相似度的基础上,基于词,计算两两文章或者句子之间的相似度。 | ||
该组件算法统计若干文章中所有词的共现情况,计算两两之间的PMI(point mutual information)。 | ||
该组件是基于linearCRF在线预测模型的算法组件,主要应用于处理序列标注问题。 | ||
该组件基于AliWS(Alibaba Word Segmenter)词法分析系统,根据参数和自定义词典生成分词模型。 | ||
该组件是指输入一些字符串(手动输入或者从指定的文件读取),用程序来统计这些字符串中总共有多少个单词,每个单词出现的次数。 | ||
该组件是一种用于资讯检索与文本挖掘的常用加权技术。通常在搜索引擎中应用,可以作为文件与用户查询之间相关程度的度量或评级。 | ||
在机器学习PAI平台,您可以通过给PLDA组件设置topic参数值,从而让每篇文档抽象出不同主题。 | ||
Word2Vec算法组件利用神经网络,通过训练,将词映射为K维度空间向量,且支持对表示词的向量进行操作并和语义相对应。输入为单词列或词汇表,输出为词向量表和词汇表。 | ||
网络分析 | 该组件能够输出每个节点的所处深度和树ID。 | |
该组件用于在图中找出符合指定核心度的紧密关联的子图结构,节点核数的最大值被称为图的核数。 | ||
该组件使用Dijkstra算法,给定起点,输出该点和其他所有节点的最短路径。 | ||
该组件起源于网页的搜索排序,即使用网页的链接结构计算每个网页的等级排名。 | ||
该组件LPA(Label Propagation Algorithm)是基于图的半监督学习方法,其基本思路是节点的标签(community)依赖其相邻节点的标签信息,影响程度由节点相似度决定,并通过传播迭代更新达到稳定。 | ||
该组件为半监督的分类算法,原理为用已标记节点的标签信息去预测未标记节点的标签信息。 | ||
该组件是一种评估社区网络结构的指标,用来评估网络结构中划分出来社区的紧密程度,通常0.3以上是比较明显的社区结构。 | ||
在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的。在图G中存在若干子图,如果其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,那么称图G的这些子图为最大连通子图。 | ||
该组件是在无向图G中,计算每一个节点周围的稠密度,星状网络稠密度为0,全联通网络稠密度为1。 | ||
该组件算法是指在无向图G中,计算每一条边周围的稠密度。 | ||
该组件是指在无向图G中,输出所有三角形。 | ||
金融板块 | 通过该组件您可以对数据进行归一化、离散化、Index化或WOE转换。 | |
该组件是信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。 | ||
该组件是对原始数据根据评分卡训练组件产出的模型结果进行预测打分。 | ||
该组件可以进行特征离散化,即将连续的数据进行分段,使其变为多个离散化区间。分箱组件支持等频分箱、等宽分箱及自动分箱。 | ||
该组件是衡量样本变化所产生的偏移量的一种重要指标,通常用于衡量样本的稳定程度。 | ||
视觉算法 | 如果您的业务场景涉及图像分类,则可以通过图像分类训练(torch)组件构建图像分类模型,从而进行模型推理。 | |
您可以使用视频分类训练算法组件对其进行模型训练,从而获得用于推理的视频分类模型。 | ||
通过该组件构建目标检测模型,对图像中的某些高风险实体进行框选检测。 | ||
您可以通过该组件将原始的尚未标注的图像直接进行训练,从而获得用于图像特征提取的模型。 | ||
您通过该组件构建度量学习模型,从而进行模型推理。 | ||
如果您的业务场景涉及人体相关的关键点检测,则可以通过图像关键点训练组件构建关键点模型,从而进行模型推理。 | ||
该组件提供主流的模型量化算法,您可以使用模型量化对模型进行压缩提速,实现高性能推理。 | ||
该组件提供主流的模型剪枝算法AGP(taylorfo),您可以使用模型剪枝对模型进行压缩提速,实现高性能推理。 | ||
工具 | 该组件是存储在MaxCompute中的一种数据结构,基于PAICommand框架的传统机器学习算法生成的模型会以离线模型格式存储在对应的MaxCompute项目中,您可以使用离线模型相关组件获取离线模型做离线预测。 | |
您可以使用通用模型导出组件,将在MaxCompute中训练得到的模型导出到指定的OSS路径。 | ||
自定义脚本 | 该组件是自定义SQL组件,您可以通过SQL脚本编辑器编写SQL语句,并提交至MaxCompute执行。 | |
该组件定义安装依赖包及运行自定义的Python函数。 | ||
该组件可以进行调用Alink的分类算法做分类、 调用回归算法做回归、调用推荐算法做推荐等。PyAlink脚本也支持与其他Designer的算法组件无缝衔接, 完成业务链路的搭建及效果验证。 | ||
该组件在普通SQL脚本组件基础上增加了多日期循环执行功能,用于并行执行某段时间内天级别SQL任务。 | ||
Beta组件 | 该组件是一种压缩估计算法。 | |
该组件支持稀疏、稠密两种数据格式。您可以使用该组件做一些数值型变量的预测,比如贷款额度预测、温度预测等。 | ||
该组件进行做数值型变量的预测,包括房价预测、销售量预测、湿度预测等。 | ||
该组件是对不适定问题进行回归分析时,最常用的正则化方法。 |