多媒体分析 - 人工智能平台 PAI

多媒体分析为您提供多媒体领域内的算法识别服务，包括基础模型服务和高级模型服务，为您提供开箱即用的算法服务能力。本文为您介绍多媒体分析相关计费说明和使用指导。

背景信息

多媒体分析支持的算法服务如下：

基础模型服务：提供图像领域内开箱即用的算法服务能力，包括图像多标签、图像质量分评定、人脸属性分析（颜值、脸型、发型、发色等信息）、年龄分析、人像身材修改（瘦身/大码）、图像去水印等模型服务。
高级模型服务：提供视频领域内开箱即用的算法服务能力，包括视频分类打标、视频质量分评定、图文视频动态分类打标（用于动态、帖子类的多模态内容打标）、AI绘图打标（打标结果用于提升AI绘图模型训练效果）等模型服务。

计费说明

多媒体分析提供按量付费后付费和资源包预付费两种计费方式，具体计费说明，详情请参见多媒体分析计费说明。

使用指导

开通多媒体分析服务和购买资源包

新用户首先需要在人工智能平台PAI的场景化解决方案的多媒体分析中开通服务，具体操作步骤如下。

登录PAI控制台。
按照下图操作指引，开通多媒体分析服务。
默认使用按量付费（后付费）方式，按调用量计费。

您也可以选择购买资源包，一次性付费购买，享受更优惠的价格。

在多媒体分析页面的基础模型服务页签，单击购买点数包。
在模型服务预付费页面，配置购买数量、场景规格和API调用次数，并单击立即购买。
其中：场景规格支持选择多媒体分析-基础模型服务或多媒体分析-高级模型服务；其他参数根据使用场景进行选择。

Python SDK使用说明

开通多媒体分析服务后，您可以使用Python SDK调用各项算法服务，详情请参见多媒体分析：Python SDK使用说明。

Java SDK使用说明

开通多媒体分析服务后，使用Java SDK调用各项算法服务API接口的操作详情，请参见Java SDK GitHub。Java SDK和Python SDK的参数基本一致。若需了解具体参数说明，请参考多媒体分析：Python SDK使用说明。

多媒体分析能力矩阵

规格	模型服务名称	每次服务消耗	描述	示例
基础模型服务	图像质量评分	1次基础模型服务	提供图像质量评估能力，返回 [0, 100] 的浮点数分值。	`"iqa_result":66.88`
	人脸属性分析	1次基础模型服务	提供人脸相关属性的输出，包括脸型、发色、发型、颜值等信息。根据人脸区域的坐标，将多个人脸区分开来，如果没有检测到人脸，则返回一个空数组。	脸型：三角脸、圆脸、心形脸、方形脸、椭圆脸、菱形脸、长脸。女性发型：刘海类型：中分刘海、刘海编发、斜刘海、无刘海、空气刘海、齐刘海。卷发类型：云朵卷、大波浪、小波浪、氧气卷、空气卷、羊毛卷、蛋卷。发型：卷发、盘发、直发、扎发、编发。长短发：中长发、短发、长发。男性发型：分发、圆寸、子弹头、平头、板寸、毛寸、碎发、背头。发色：黑色、咖啡色、奶奶灰、栗色、棕色、渐变色、酒红色、金色、黄色、其他颜色。颜值：0～5 分。
	年龄分析	1次基础模型服务	识别图像中主体人脸（唯一）的年龄区间。如果图像中有多个人脸，则只会返回区域最大的主体人脸的结果。如果图像中没有检测到人脸，将返回错误提示。	年龄区间包含：`'0-2'`、`'3-9'`、`'10-19'`、`'20-29'`、`'30-39'`、`'40-49'`、`'50-59'`、`'60-69'`、`'70+'`。
	图像多标签	1次基础模型服务	提供图像多标签打标能力，可以输出概率最高的Top K个标签以及对应的概率，也可以输出图像的高维特征。	高频标签举例：女生、自拍、男生、生活随拍、截屏、食物、车、美食、游戏、卡通、动物、韩系穿搭等。
	人像身材修改	1次基础模型服务	提供人像身材修改功能，您可以上传人像照片，并通过调整degree参数来控制人像的身材，包括胖身或瘦身，其中`degree > 0`表示瘦身。	接口返回修改后图像的Base64编码。
	图像去水印	1次基础模型服务	去除图像中包含的水印。	接口返回去除水印后图像的Base64编码。
	AI绘图打标	1次基础模型服务	提供AI绘图（Stable-Diffusion）训练所需的多种图像多标签打标能力，更好的标签能提升训练模型的生图效果。	支持的打标模型：WD14、BLIP、GIT、RAM。 caption结果示例： `"sensitive, 1girl, solo, long hair, looking at viewer, smile, black hair, brown eyes, scarf, lips, realistic"`。
	定制模型服务	N次基础模型服务，具体N的值根据定制模型复杂度有所差异	提供图像、视频相关的定制模型服务。	根据实际定制模型类型确定。
高级模型服务	图文视频动态分类打标	1次高级模型服务	为包含多模态内容的动态或帖子提供分类打标服务，支持使用文本+图片或文本+视频的组合进行分类打标，并支持返回高维特征Embedding。	高频类别举例：生活、影视综艺、体育、旅游、游戏、美食、健身等。高频标签举例：运动、美食、舞蹈、健身、烹饪、旅游、自拍等。 embedding举例： `0.915,0.882,0.943,0.978,1.027,1.181,1.066,1.029,0.866,0.716,0.628,1.203,0.689,0.533,0.734,1.038,0.98,0.613,0.96,0.88,0.586,0.702,1.515,0.697,0.987,0.699,1.179,4.274,0.757,0.89,0.805,0.901`。
	视频质量评分	1次高级模型服务	提供短视频质量评估能力，返回[0-100]的浮点质量分。	`"video_score":20.57`
	视频分类打标	1次高级模型服务	提供短视频分类打标能力，返回短视频类别和概率较高的Top K个标签及对应概率，也支持输出视频的高维特征。	高频类别举例：生活、知识、音乐、科技、游戏。高频标签举例：有字幕、小姐姐、社会新闻资讯、瘦身塑形、剧情段子、影视片段、自然风景等。

测试与服务

如果您需要做进一步的测试和服务，请工单联系我们获取技术支持。