全部产品
Search
文档中心

媒体处理:智能生产接口参数补充说明

更新时间:Feb 26, 2024

本文介绍提交智能生产作业请求参数JobParamsOutput及查询智能生产作业返回参数Job补充说明。

字幕提取:CaptionExtraction

名称

类型

描述

Output

String

如果JobParams设置了中英文分离,输出文件路径中支持{resultType}占位符,用来比较对应字幕结果文件是中文或英文,中文为zh,英文为en。

JobParams参数说明:

名称

类型

是否必填

描述

fps

Int

采样帧率(可选),整数,取值范围为[2,10],默认5

roi

List

字幕框选区域。

  • 如果输入框选区域,则只对区域内的字幕进行提取,区域外的文字忽略。如果不填该参数,默认识别视频底部1/4区域。

  • 格式:[[top, bottom], [left, right]]。

  • 默认:

sep

Boolean

是否中英文分离输出两个srt文件,可选,默认False

formatter

String

srt的字幕格式字符串(可选),例如:"{\an8}",默认

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"CaptionExtraction",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success","State":"Succes"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如:{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"captionextraction/b48d02b58e9b6a0d1c13271bcf9aa6d7-161121379****.srt\"}]}"}

绿幕抠图:VideoGreenScreenMatting

JobParams参数说明:

名称

类型

是否必填

描述

bgimage

String

替换的背景图片,例如:http://example-image-****.example-location.aliyuncs.com/example/example.jpg。

  • 传入该参数:输出替换背景后的MP4视频。

  • 不传该参数:输出带透明通道的WEBM视频。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"VideoGreenScreenMatting",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videogreenscreenmatting/16e6bc5ca802e12429d082010164dba3-160275535****_matting.mp4\"}]}"}

副歌检测:MusicSegmentDetect

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"MusicSegmentDetect",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Code":"Success","Data":"{\"result\":[{\"start\":39.32,\"end\":63.85,\"title\":\"副歌\"},{\"start\":86.69,\"end\":114.45,\"title\":\"副歌\"},{\"start\":135.75,\"end\":160.27,\"title\":\"副歌\"}]}","Message":"Successful."}

视频去字幕:VideoDetext

JobParams参数说明:

名称

类型

是否必填

描述

Text

List

目标字幕框位置。目前最多支持两个目标字幕。例如:[[bx1, by1, bw1, bh1], [bx2, by2, bw2, bh2]]。

说明

一个字幕框中须同时包含bx、by、bw、bh。

  • bx:字幕框距离左上角的归一化x轴坐标相对于视频宽度比例,例如0.1。

  • by:字幕框距离左上角的归一化y轴坐标相对于视频高度比例,例如0.0。

  • bw:归一化宽度相对视频宽度比例,例如0.3。

  • bh:归一化高度相对视频高度比例,例如0.2。

LimitRegion

List

指定擦除限制范围,在限制区域内检测之后擦除字幕区域。优先级低于直接指定擦除区域Text。示例:LimitRegion: [[0, 0.6, 1, 0.4]]为在图像下方40%区域进行字幕检测与擦除。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[], 
  "FunctionName":"VideoDetext",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

视频横转竖:VideoH2V

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

视频去图标:VideoDelogo

JobParams参数说明:

名称

类型

是否必填

描述

Logo

String

目标logo框位置,[xmin, ymin, width, height],目前最多支持两个目标logo框,例如:[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

智能封面:Cover

JobParams参数说明:

名称

类型

是否必填

描述

Model

String

智能封面模型,为空时输出图片封面,为gif时输出动图封面。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"Cover",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}{"Message":"success","Data":"[{\"Score\":8.270855992569906,\"Time\":\"28278.25\",\"Url\":\"cover/test-00001.jpg\"},{\"Score\":7.474117489692728,\"Time\":\"25942.583333333332\",\"Url\":\"cover/test-00002.jpg\"}]","Code":"Success"},其中Score为封面结果置信度,Time为封面帧时间戳,Url为封面文件路径。

视频摘要:VideoClip

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoClip",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:

{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videoclip/16e6bc5ca802e12429d082010164****-1602755353502-origin.mp4\"}]}"}

图片横转竖:ImageH2V

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

图片去图标:ImageDelogo

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

节奏检测:AudioBeatDetection

JobParams参数说明:

名称

类型

是否必填

描述

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"AudioBeatDetection",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"result\":[{\"file\":\"detectresult/normalvideo-161225931****.txt\"}]}","Message":"Successful."}

混音处理:AudioMixing

JobParams参数说明:

名称

类型

是否必填

描述

inputs

String

待混合的音轨文件地址列表,目前只支持一个,例如:{"file":"http://example-bucket-****.oss-cn-shanghai.aliyuncs.com/2.mp4"}

回调格式

JSON格式

{
  "Code":"Success",
  "FunctionName":"AudioMixing",
  "JobId":"158688059d8443a68b78a65e55b3****",
  "Message":"Successful.",
  "State":"Success",
  "Type":"IProduction",
  "UserData":"test"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如:{"Message":"Successful.","Data":"{\"result\":[{\"file\":\"audiomix/alibaba-161283935****-origin.mp4\"}]}","Code":"Success"}

3D风格、人脸风格化:ImageCartoonize

Output参数说明:

名称

类型

描述

Output

String

路径中支持{resultType}占位符,用来区分结果文件是卡通化结果图/原图,卡通化结果为result,原图为origin。

回调示例

JSON格式

{
 "Code":"Success",
 "Details":[],
 "FunctionName":"ImageCartoonize",
 "JobId":"39f8e0bc005e4f309379701645f4744c",
 "Message":"success",
 "State":"Success",
 "Type":"IProduction"
}

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"result\":[{\"file\":\"iproduction/test-result.jpg\"},{\"file\":\"iproduction/test-origin.jpg\"}]}","Message":"Successful."}

音质检测:AudioQualityAssessment

Job参数说明:

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如下。

Result结果信息:

{
  "Code" : "Success",
  "Data" : "{
    \"result\":[{
        \"Discontinuity\":\"Good\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.38\",
        \"Discontinuity(0-5)\":\"3.52\",
        \"Speech Ratio\":\"48.55\",
        \"Loudness(0-5)\":\"4.91\",
        \"Worst Discontinuity(0-5)\":\"0.88\",
        \"Worst Coloration(0-5)\":\"0.42\",
        \"Channel\":\"1\",
        \"Coloration(0-5)\":\"0.99\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"3.28\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.91\",
        \"Double Talk Ratio(%)\":\"19.23\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Good\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.01\",
        \"Loudness(-90dB-0dB)\":\"-0.59\",
        \"Coloration\":\"Bad\",
        \"Saturated Ratio(%)\":\"37.55\"
    },
    {
        \"Discontinuity\":\"Fair\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.65\",
        \"Discontinuity(0-5)\":\"2.45\",
        \"Speech Ratio\":\"41.68\",
        \"Loudness(0-5)\":\"4.52\",
        \"Worst Discontinuity(0-5)\":\"0.66\",
        \"Worst Coloration(0-5)\":\"0.72\",
        \"Channel\":\"2\",
        \"Coloration(0-5)\":\"2.34\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"2.53\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.67\",
        \"Double Talk Ratio(%)\":\"25.93\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Fair\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.69\",
        \"Loudness(-90dB-0dB)\":\"-4.82\",
        \"Coloration\":\"Fair\",
        \"Saturated Ratio(%)\":\"0.0\"
    }]
  }",
  "Message" : "Successful."
}

参数说明

参数

说明

Time

时间戳,对输入文件执行打分的时刻。

Input

输入文件名。

Total Duration

文件时长,单位为秒。

Speech Ratio

语音时长占比,取值范围为[0,100],单位为百分比(%)。

Tag

标签,用于说明检测的有效性。

  • Valid : 检测有效,即后续关键指标和MOS都是有效的。

  • File too Short:输入文件时长小于2s。

  • Mute:全程完全静音。

  • Voice too Short:话音时长小于2s

说明
  • 四个事件互斥。

  • 后三种情况的MOS,Discontinuity,Coloration,Noisiness无意义,数值上会给出0。

MOS(0-5)

文件平均MOS,描述语音部分的质量,取值范围[0,5]。

MOS

分值描述。取值如下:

  • (4, 5]:Excellent

  • [3, 4):Good

  • [2, 3):Fair

  • [1, 2):Poor

  • [0, 1):Bad

Discontinuity(0-5)

语音连续性,当发生采集卡顿、双讲抑制、网络丢包时,连续性分值会下降。取值范围[0,5]。

Discontinuity

分值描述。取值如下:

  • (4, 5]:Excellent

  • [3, 4):Good

  • [2, 3):Fair

  • [1, 2):Poor

  • [0, 1):Bad

Coloration(0-5)

语音清晰度、可懂度,如环境混响较大,码率较低(或编码错误)、发音含糊不清时,语音自然度分值降低。取值范围[0,5]。

Coloration

分值描述。取值如下:

  • (4, 5]:Excellent

  • [3, 4):Good

  • [2, 3):Fair

  • [1, 2):Poor

  • [0, 1):Bad

Noisiness(0-5)

噪音严重程度,取值范围[0,5]。

说明

噪音的几个来源:环境噪声(如风扇,街道),某些较差设备的底噪,以及拾音设备回声处理不干净所残留的杂音等等,这些噪音如果没有良好的降噪处理,会使噪音问题较突出。

Noisiness

分值描述。取值如下:

  • (4, 5]:Excellent

  • [3, 4):Good

  • [2, 3):Fair

  • [1, 2):Poor

  • [0, 1):Bad

Loudness(0-5)

人声响度,即人声音量的大小,声音清晰洪亮分支偏高,声音很小几乎听不到,则分值趋近于0。取值范围[0,5]。

Loudness

分值描述。取值如下:

  • (4, 5]:Excellent

  • [3, 4):Good

  • [2, 3):Fair

  • [1, 2):Poor

  • [0, 1):Bad

Loudness(-90dB-0dB)

平均语音音量。取值范围[-90,0],单位为分贝(dB)。

  • 从分贝角度描述了人声音量的大小,一般小于-24dB时,听感上人声会偏小。

  • 默认值:-90.0,表示未检测到明确的语音成分。

Double Talk Ratio(%)

双讲占比,用于辅助判断连续性Discontinuity分值较低时的可能因素。取值范围[0,100],单位为百分比(%)。

说明

此处双讲统计的是双端都有声音,而不是严格的话音,例如设备漏残留回声时,可能会被计为“双讲”,但因为这个情况也会使Discontinuity变差,所以仍有助于辅助判断。

Bad Mute Ratio(%)

异常静音帧占比,对双讲时段之外的话音进行异常静音统计(排除双讲剪切所致的静音帧)。取值范围[0,100],单位为百分比(%)。

Saturated Ratio(%)

语音段中出现爆音占有话段的比例,用于辅助判断采集音量过大导致的大范围爆音问题。取值范围[0,100],单位为百分比(%)。

Worst MOS(0-5)

打分过程中的最低MOS,取值范围[0,5]。

Worst Discontinuity(0-5)

打分过程中最严重的断续程度,取值范围[0,5]。

Worst Noisiness(0-5)

打分过程中噪声最大的程度,取值范围[0,5]。

Worst Coloration(0-5)

打分过程中最差的语音自然度,取值范围[0,5]。

美颜:FaceBeauty

Job参数说明:

名称

类型

是否必填

描述

beauty_params

String

美颜功能参数,填写示例: "whiten=20,smooth=50,face_thin=50"

回调示例

JSON格式

{
	"Code":"Success",
  "Details":[],
  "FunctionName":"FaceBeauty",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
 }

参数说明

参数

类型

说明

skin_beauty_enable

int

美肤开关。

  • 取值范围:[0,1]

  • 0:关闭

  • 1:开启

  • 默认值:1

shape_beauty_enable

int

美型开关。

  • 取值范围:[0,1]

  • 0:关闭

  • 1:开启

  • 默认值:1

whiten

int

美白的力度,值越大,肤色区域将会越白。

  • 取值范围:[0,100]

  • 默认值:20

smooth

int

平滑的力度,值越大,肤色区域越模糊。

  • 取值范围:[0,100]

  • 默认值:20

detail

int

肤色细节的颗粒度,值越大,真实肤色的颗粒感越重,细节越多。

  • 取值范围:[0,100]

  • 默认值:20

skin_model

int

开启时,美白只会作用在检测为皮肤的区域。

  • 取值范围:[0,1]

  • 0:关闭

  • 1:开启

  • 默认值:1

cheek_thin

float

瘦额骨。

  • 取值范围:[0,100]

  • 默认值:0

face_cut

float

削脸。

  • 取值范围:[0,100]

  • 默认值:0

face_thin

float

瘦脸。

  • 取值范围:[0,100]

  • 默认值:0

face_length

float

脸长调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

chin_length

float

下巴长度调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

chin_thin

float

瘦下巴。

  • 取值范围:[0,100]

  • 默认值:0

eye_size

float

眼睛变大。

  • 取值范围:[0,100]

  • 默认值:0

eye_corner1

float

竖直方向调节眼角(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

eye_distance

float

调节眼距(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

nose_thin

float

瘦鼻子(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

nose_wing

float

瘦鼻翼(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

nose_length

float

鼻长调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

mouth_size

float

嘴巴大小调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

mouth_position

float

人中长度调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

lip_thickness

float

嘴唇厚度调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

hair_line

float

发际线调节(双向)。

  • 取值范围:[-100,100]

  • 默认值:0

smile

float

微笑。

  • 取值范围:[0,100]

  • 默认值:0

detect_mode

float

人脸检测模式。

  • 取值范围:[0,1]

  • 0:视频模式

  • 1:图像模式

  • 默认值:1

说明

视频模式会使用多帧信息来追踪人脸,使结果更加稳定。

detect_level

float

人脸检测器的分辨率。低分辨率下,比较小的人脸可能会漏。

  • 取值范围:[0,2]

  • 0:最低分辨率,速度最快

  • 1:中等分辨率,速度中等

  • 2:最高分辨率,速度最慢

  • 默认值:1

threshold

float

人脸检测置信度阈值。

  • 取值范围:[0,1]

  • 默认值:0.8

detect_interval

float

视频模式下的人脸检测间隔帧数。

  • 取值范围:[1,65535]

  • 默认值:5

max_face_num

float

最大支持的人脸个数。

  • 取值范围:[0,32]

  • 默认值:32

min_face

float

最小人脸的宽度。

  • 取值范围:[10,1024]

  • 默认值:40

Job参数说明

名称

类型

描述

Result

String

作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"result\":[{\"file\":\"result.mp4\"}]}","Message":"Successful."}

智能降噪:SpeechDenoise

输入音频文件,输入音频的格式需为WAV,采样率为16khz或48khz。

输出处理后的音频文件,采样率及格式同输入文件一致。