智能生产接口参数说明 - 媒体处理

本文介绍提交智能生产作业请求参数JobParams、Output及查询智能生产作业返回参数Job补充说明。

字幕提取：CaptionExtraction

名称	类型	描述
Output	String	如果JobParams设置了中英文分离，输出文件路径中支持`{resultType}`占位符，用来比较对应字幕结果文件是中文或英文，中文为zh，英文为en。

JobParams参数说明：

名称	类型	是否必填	描述
fps	Int	否	采样帧率（可选），整数，取值范围为[2,10]，默认5。
roi	List	否	字幕框选区域。如果输入框选区域，则只对区域内的字幕进行提取，区域外的文字忽略。如果不填该参数，默认识别视频底部1/4区域。格式：[[top, bottom], [left, right]]。默认：无。
sep	Boolean	否	是否中英文分离输出两个srt文件，可选，默认False。
formatter	String	否	srt的字幕格式字符串（可选），例如："{\an8}"，默认无。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"CaptionExtraction",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success","State":"Succes"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如：`{"Code":"Success","Message":"Successful.","Data":"{\"result\"：[{\"file\":\"captionextraction/b48d02b58e9b6a0d1c13271bcf9aa6d7-161121379****.srt\"}]}"}`

绿幕抠图：VideoGreenScreenMatting

JobParams参数说明：

名称

类型

是否必填

描述

bgimage

String

否

替换的背景图片，例如：http://example-image-****.example-location.aliyuncs.com/example/example.jpg。

传入该参数：输出替换背景后的MP4视频。
不传该参数：输出带透明通道的WEBM视频。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"VideoGreenScreenMatting",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videogreenscreenmatting/16e6bc5ca802e12429d082010164dba3-160275535****_matting.mp4\"}]}"}`

副歌检测：MusicSegmentDetect

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"MusicSegmentDetect",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Code":"Success","Data":"{\"result\":[{\"start\":39.32,\"end\":63.85,\"title\":\"副歌\"},{\"start\":86.69,\"end\":114.45,\"title\":\"副歌\"},{\"start\":135.75,\"end\":160.27,\"title\":\"副歌\"}]}","Message":"Successful."}`

视频去字幕：VideoDetext

JobParams参数说明：

名称

类型

是否必填

描述

Text

List

否

目标字幕框位置。目前最多支持两个目标字幕。例如：[[bx1, by1, bw1, bh1], [bx2, by2, bw2, bh2]]。

说明

一个字幕框中须同时包含bx、by、bw、bh。

bx：字幕框距离左上角的归一化x轴坐标相对于视频宽度比例，例如0.1。
by：字幕框距离左上角的归一化y轴坐标相对于视频高度比例，例如0.0。
bw：归一化宽度相对视频宽度比例，例如0.3。
bh：归一化高度相对视频高度比例，例如0.2。

LimitRegion

List

否

指定擦除限制范围，在限制区域内检测之后擦除字幕区域。优先级低于直接指定擦除区域Text。示例：LimitRegion: [[0, 0.6, 1, 0.4]]为在图像下方40%区域进行字幕检测与擦除。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[], 
  "FunctionName":"VideoDetext",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}`

视频横转竖：VideoH2V

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}`

视频去图标：VideoDelogo

JobParams参数说明：

名称	类型	是否必填	描述
Logo	String	否	目标logo框位置，[xmin, ymin, width, height]，目前最多支持两个目标logo框，例如：[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}`

智能封面：Cover

JobParams参数说明：

名称	类型	是否必填	描述
Model	String	否	智能封面模型，为空时输出图片封面，为gif时输出动图封面。

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"Cover",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}{"Message":"success","Data":"[{\"Score\":8.270855992569906,\"Time\":\"28278.25\",\"Url\":\"cover/test-00001.jpg\"},{\"Score\":7.474117489692728,\"Time\":\"25942.583333333332\",\"Url\":\"cover/test-00002.jpg\"}]","Code":"Success"}`，其中`Score`为封面结果置信度，`Time`为封面帧时间戳，`Url`为封面文件路径。

视频摘要：VideoClip

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoClip",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称

类型

描述

Result

String

作业结果详细信息，成功结果信息。示例如下：

{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videoclip/16e6bc5ca802e12429d082010164****-1602755353502-origin.mp4\"}]}"}

图片横转竖：ImageH2V

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}`

图片去图标：ImageDelogo

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息。示例如下：`{"Details":[],"Message":"success","Code":"Success"}`

节奏检测：AudioBeatDetection

JobParams参数说明：

名称	类型	是否必填	描述
无	无	无	无

回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"AudioBeatDetection",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如：`{"Code":"Success","Data":"{\"result\":[{\"file\":\"detectresult/normalvideo-161225931****.txt\"}]}","Message":"Successful."}`

混音处理：AudioMixing

JobParams参数说明：

名称	类型	是否必填	描述
inputs	String	否	待混合的音轨文件地址列表，目前只支持一个，例如：`{"file":"http://example-bucket-****.oss-cn-shanghai.aliyuncs.com/2.mp4"}`

回调格式

JSON格式

{
  "Code":"Success",
  "FunctionName":"AudioMixing",
  "JobId":"158688059d8443a68b78a65e55b3****",
  "Message":"Successful.",
  "State":"Success",
  "Type":"IProduction",
  "UserData":"test"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如：`{"Message":"Successful.","Data":"{\"result\":[{\"file\":\"audiomix/alibaba-161283935****-origin.mp4\"}]}","Code":"Success"}`

3D风格、人脸风格化：ImageCartoonize

Output参数说明：

名称	类型	描述
Output	String	路径中支持`{resultType}`占位符，用来区分结果文件是卡通化结果图／原图，卡通化结果为result，原图为origin。

回调示例

JSON格式

{
 "Code":"Success",
 "Details":[],
 "FunctionName":"ImageCartoonize",
 "JobId":"39f8e0bc005e4f309379701645f4744c",
 "Message":"success",
 "State":"Success",
 "Type":"IProduction"
}

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如：`{"Code":"Success","Data":"{\"result\":[{\"file\":\"iproduction/test-result.jpg\"},{\"file\":\"iproduction/test-origin.jpg\"}]}","Message":"Successful."}`

音质检测：AudioQualityAssessment

Job参数说明：

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如下。

Result结果信息：

{
  "Code" : "Success",
  "Data" : "{
    \"result\":[{
        \"Discontinuity\":\"Good\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.38\",
        \"Discontinuity(0-5)\":\"3.52\",
        \"Speech Ratio\":\"48.55\",
        \"Loudness(0-5)\":\"4.91\",
        \"Worst Discontinuity(0-5)\":\"0.88\",
        \"Worst Coloration(0-5)\":\"0.42\",
        \"Channel\":\"1\",
        \"Coloration(0-5)\":\"0.99\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"3.28\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.91\",
        \"Double Talk Ratio(%)\":\"19.23\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Good\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.01\",
        \"Loudness(-90dB-0dB)\":\"-0.59\",
        \"Coloration\":\"Bad\",
        \"Saturated Ratio(%)\":\"37.55\"
    },
    {
        \"Discontinuity\":\"Fair\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.65\",
        \"Discontinuity(0-5)\":\"2.45\",
        \"Speech Ratio\":\"41.68\",
        \"Loudness(0-5)\":\"4.52\",
        \"Worst Discontinuity(0-5)\":\"0.66\",
        \"Worst Coloration(0-5)\":\"0.72\",
        \"Channel\":\"2\",
        \"Coloration(0-5)\":\"2.34\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"2.53\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.67\",
        \"Double Talk Ratio(%)\":\"25.93\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Fair\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.69\",
        \"Loudness(-90dB-0dB)\":\"-4.82\",
        \"Coloration\":\"Fair\",
        \"Saturated Ratio(%)\":\"0.0\"
    }]
  }",
  "Message" : "Successful."
}

参数说明

参数	说明
Time	时间戳，对输入文件执行打分的时刻。
Input	输入文件名。
Total Duration	文件时长，单位为秒。
Speech Ratio	语音时长占比，取值范围为[0,100]，单位为百分比（%）。
Tag	标签，用于说明检测的有效性。 Valid ：检测有效，即后续关键指标和MOS都是有效的。 File too Short：输入文件时长小于2s。 Mute：全程完全静音。 Voice too Short：话音时长小于2s 说明四个事件互斥。后三种情况的MOS，Discontinuity，Coloration，Noisiness无意义，数值上会给出0。
MOS(0-5)	文件平均MOS，描述语音部分的质量，取值范围[0,5]。
MOS	分值描述。取值如下： (4, 5]：Excellent [3, 4)：Good [2, 3)：Fair [1, 2)：Poor [0, 1)：Bad
Discontinuity(0-5)	语音连续性，当发生采集卡顿、双讲抑制、网络丢包时，连续性分值会下降。取值范围[0,5]。
Discontinuity	分值描述。取值如下： (4, 5]：Excellent [3, 4)：Good [2, 3)：Fair [1, 2)：Poor [0, 1)：Bad
Coloration(0-5)	语音清晰度、可懂度，如环境混响较大，码率较低（或编码错误）、发音含糊不清时，语音自然度分值降低。取值范围[0,5]。
Coloration	分值描述。取值如下： (4, 5]：Excellent [3, 4)：Good [2, 3)：Fair [1, 2)：Poor [0, 1)：Bad
Noisiness(0-5)	噪音严重程度，取值范围[0,5]。说明噪音的几个来源：环境噪声（如风扇，街道），某些较差设备的底噪，以及拾音设备回声处理不干净所残留的杂音等等，这些噪音如果没有良好的降噪处理，会使噪音问题较突出。
Noisiness	分值描述。取值如下： (4, 5]：Excellent [3, 4)：Good [2, 3)：Fair [1, 2)：Poor [0, 1)：Bad
Loudness(0-5)	人声响度，即人声音量的大小，声音清晰洪亮分支偏高，声音很小几乎听不到，则分值趋近于0。取值范围[0,5]。
Loudness	分值描述。取值如下： (4, 5]：Excellent [3, 4)：Good [2, 3)：Fair [1, 2)：Poor [0, 1)：Bad
Loudness(-90dB-0dB)	平均语音音量。取值范围[-90,0]，单位为分贝（dB）。从分贝角度描述了人声音量的大小，一般小于-24dB时，听感上人声会偏小。默认值：-90.0，表示未检测到明确的语音成分。
Double Talk Ratio(%)	双讲占比，用于辅助判断连续性Discontinuity分值较低时的可能因素。取值范围[0,100]，单位为百分比（%）。说明此处双讲统计的是双端都有声音，而不是严格的话音，例如设备漏残留回声时，可能会被计为“双讲”，但因为这个情况也会使Discontinuity变差，所以仍有助于辅助判断。
Bad Mute Ratio(%)	异常静音帧占比，对双讲时段之外的话音进行异常静音统计（排除双讲剪切所致的静音帧）。取值范围[0,100]，单位为百分比（%）。
Saturated Ratio(%)	语音段中出现爆音占有话段的比例，用于辅助判断采集音量过大导致的大范围爆音问题。取值范围[0,100]，单位为百分比（%）。
Worst MOS(0-5)	打分过程中的最低MOS，取值范围[0,5]。
Worst Discontinuity(0-5)	打分过程中最严重的断续程度，取值范围[0,5]。
Worst Noisiness(0-5)	打分过程中噪声最大的程度，取值范围[0,5]。
Worst Coloration(0-5)	打分过程中最差的语音自然度，取值范围[0,5]。

美颜：FaceBeauty

Job参数说明：

名称	类型	是否必填	描述
beauty_params	String	否	美颜功能参数，填写示例： "whiten=20,smooth=50,face_thin=50"

回调示例

JSON格式

{
	"Code":"Success",
  "Details":[],
  "FunctionName":"FaceBeauty",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
 }

参数说明

参数	类型	说明
skin_beauty_enable	int	美肤开关。取值范围：[0,1] 0：关闭 1：开启默认值：1
shape_beauty_enable	int	美型开关。取值范围：[0,1] 0：关闭 1：开启默认值：1
whiten	int	美白的力度，值越大，肤色区域将会越白。取值范围：[0,100] 默认值：20
smooth	int	平滑的力度，值越大，肤色区域越模糊。取值范围：[0,100] 默认值：20
detail	int	肤色细节的颗粒度，值越大，真实肤色的颗粒感越重，细节越多。取值范围：[0,100] 默认值：20
skin_model	int	开启时，美白只会作用在检测为皮肤的区域。取值范围：[0,1] 0：关闭 1：开启默认值：1
cheek_thin	float	瘦额骨。取值范围：[0,100] 默认值：0
face_cut	float	削脸。取值范围：[0,100] 默认值：0
face_thin	float	瘦脸。取值范围：[0,100] 默认值：0
face_length	float	脸长调节（双向）。取值范围：[-100,100] 默认值：0
chin_length	float	下巴长度调节（双向）。取值范围：[-100,100] 默认值：0
chin_thin	float	瘦下巴。取值范围：[0,100] 默认值：0
eye_size	float	眼睛变大。取值范围：[0,100] 默认值：0
eye_corner1	float	竖直方向调节眼角（双向）。取值范围：[-100,100] 默认值：0
eye_distance	float	调节眼距（双向）。取值范围：[-100,100] 默认值：0
nose_thin	float	瘦鼻子（双向）。取值范围：[-100,100] 默认值：0
nose_wing	float	瘦鼻翼（双向）。取值范围：[-100,100] 默认值：0
nose_length	float	鼻长调节（双向）。取值范围：[-100,100] 默认值：0
mouth_size	float	嘴巴大小调节（双向）。取值范围：[-100,100] 默认值：0
mouth_position	float	人中长度调节（双向）。取值范围：[-100,100] 默认值：0
lip_thickness	float	嘴唇厚度调节（双向）。取值范围：[-100,100] 默认值：0
hair_line	float	发际线调节（双向）。取值范围：[-100,100] 默认值：0
smile	float	微笑。取值范围：[0,100] 默认值：0
detect_mode	float	人脸检测模式。取值范围：[0,1] 0：视频模式 1：图像模式默认值：1 说明视频模式会使用多帧信息来追踪人脸，使结果更加稳定。
detect_level	float	人脸检测器的分辨率。低分辨率下，比较小的人脸可能会漏。取值范围：[0,2] 0：最低分辨率，速度最快 1：中等分辨率，速度中等 2：最高分辨率，速度最慢默认值：1
threshold	float	人脸检测置信度阈值。取值范围：[0,1] 默认值：0.8
detect_interval	float	视频模式下的人脸检测间隔帧数。取值范围：[1,65535] 默认值：5
max_face_num	float	最大支持的人脸个数。取值范围：[0,32] 默认值：32
min_face	float	最小人脸的宽度。取值范围：[10,1024] 默认值：40

Job参数说明

名称	类型	描述
Result	String	作业结果详细信息，成功结果信息如：{"Code":"Success","Data":"{\"result\":[{\"file\":\"result.mp4\"}]}","Message":"Successful."}

智能降噪：SpeechDenoise

输入音频文件，输入音频的格式需为WAV，采样率为16khz或48khz。

输出处理后的音频文件，采样率及格式同输入文件一致。