媒体处理转码、加密、AI功能介绍 - 媒体处理

媒体处理可以将一个音视频文件转换成另一个或多个音视频文件，以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析，实现智能审核、内容理解、智能编辑等多种处理功能。

音视频转码

把音视频码流转换为另一种清晰度、编码格式或封装格式，以适应不同网络带宽、不同终端播放设备的使用场景。媒体处理覆盖了主流编码及封装格式，并且支持在转码过程中添加水印、字幕、简单剪辑等处理，详见下文。未在控制台或API展示的功能，请通过商务人员联系技术团队。

重要

以下功能需要提交转码作业使用，按照输出的视频规格和时长，收取普通转码费用。计费说明请参见转码定价。

参数	类型	说明
输入文件	封装格式	视频：3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF、VOB。音频：AAC、FLAC、M4A、MP3、MP4、OGG。字幕：ASS、SSA、SRT、VTT。
	视频编码格式	Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。
	音频编码格式	AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。
	文件大小	最大100 GB。
	色彩空间	4:2:2、4:2:0等。
输出文件	封装格式	说明封装格式与编码格式需要搭配使用，支持规则请参见格式支持。未在控制台或API展示的功能请通过商务人员联系技术团队。转封装不改变音视频流的编码方式，仅改变封装格式。支持输出MP4、HLS、FLV三种格式。视频：HLS、DASH、CMAF、3GP、AVI、FLV、F4V、fMP4、MKV、MOV、MP4、MPEG、TS、MXF、WebM。动图：GIF、WEBP。音频：AAC、M4A、MP2、MP3、MP4、OGG、FLAC、WAV。
	编码格式	视频：H.263、H.264/AVC、 H.265/HEVC、H.266/VVC、VP8、VP9、AV1、AVC-Introa、AVS2、MPEG-1、MPEG-2、MPEG-2 422、MPEG-4、Apple ProRes。动图：GIF、WEBP。音频：AAC、AC3、EAC3、MP2、MP3、FLAC、OPUS、VORBIS、Windows Media Audio、pcm_s16le。
	编码级别	H.264支持Baseline、Main、High三种编码级别。 AAC支持aac_low、aac_he、aac_he_v2、aac_ld、aac_eld五种编码级别。
	分辨率	H.264输出分辨率范围为[128,4096]，单位为px。 H.265、H.266、AV1输出分辨率范围为[128,8192]，单位为px。
	码率	H.264输出码率范围为[10,50000]，单位为Kbps。 H.265、H.266、AV1输出码率范围为[10,200000]，单位为Kbps。
	帧率	输出帧率范围为(0,60]，单位为fps。
	采样位深	H.264支持8bit。 H.265支持最高12bit。
	颜色格式	yuv420p，yuvj420p，yuv422p，yuvj422p，yuv444p，yuvj444等。
	码率控制	VBR、CBR、ABR、CRF。
	扫描模式	支持原视频模式、自动去隔行、交叉扫描、顺序扫描。

窄带高清^TM

窄带高清^TM是一项基于阿里云转码技术的媒体处理功能，通过提高视频压缩率、减小文件体积，从而减少播放卡顿并节省存储和流量费用。

重要

以下功能需要在提交转码作业时选择对应窄带高清转码模板使用，按照输出的视频规格和时长，收取窄带高清转码费用。

类型	说明
窄带高清^TM1.0	针对视频画面场景、动作、内容、纹理等细节进行智能分析，实现在同等画质下平均节约20～40%码率、在同等带宽下更高清的观看体验。支持H.264、H.265编码，其他参数同普通转码。单击在线体验。
窄带高清^TM2.0	突破视频编码器能力上限并融入轻量画质修复与增强能力，实现在同等画质下平均节约40%～60%码率、在低带宽下更高清优质的观看体验。支持H.264、H.265编码，其他参数同普通转码。单击在线体验

音频增强

视频云音频实验室有机结合传统信号处理与深度学习技术，提供全场景音频增强与修复方案。

重要

以下功能需要在提交转码作业时配置相应参数使用，音频部分按照输出的音频规格和时长，收取音视频增强费用。视频部分按照使用的服务，收取转码费用。如需开启音频增强转码模板，请搜索钉钉群32171220入群联系阿里云技术人员配置。

功能	说明
音效增强	支持对单/双/5.1/7.1多声道音频进行效果增强，针对耳机、外放等不同播放环境，提供影视级品质、自然、清晰、可定制的音效氛围，适用于音乐、演讲、影视内容场景。
音量归一	智能调节视频响度，进行归一化处理。解决短视频、音乐连播场景下，因内容源音量参差不齐，带来音量忽大忽小的问题。

倍速转码

将视频源切分为多个较小的片段后并行转码，可将转码速度提升5～30倍，显著缩短处理耗时，适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。

重要

通过提交转码作业并启用倍速管道为转码任务提速。除收取原本音视频转码或音视频增强费用外，会按输出的视频规格、时长和实际倍速，额外收取倍速费用。

类型	说明
加速倍数	根据输入视频情况，一般可达到5～30倍。支持在倍速管道上设置预期倍速，如5倍速、10倍速、20倍速、30倍速等。
适用视频	推荐30分钟以上的长视频，或对高帧率、超高清、音画增强等复杂处理的视频采用倍速转码。详细说明，请参见倍速转码使用限制。
倍速策略	并非所有视频都支持切片，投递到倍速管道中但不支持倍速的视频，会默认退避到非倍速模式转码。

更多处理

媒体信息

获取存储于OSS上的音视频文件信息，包括分辨率、码率、帧率、编码格式、文件格式等关键信息。

重要

该功能需要通过提交媒体信息作业使用，按请求次数，收取功能接口请求费用。

简单剪辑

对视频进行提取音频、提取视频、拼接、剪辑、混音等简单的二次创作。

重要

以下功能需要通过提交转码作业时设置相应参数使用，按输出的视频规格和时长，收取转码费用。

功能	说明	API相关参数	控制台操作
提取音频	从视频文件中单独分离出音频，即禁用视频。	Remove	支持
提取视频	从视频文件中单独分离出视频，即禁用音频。	Remove	支持
视频去黑边	检测视频画面中的黑边，并自动剪裁。	Crop	不支持
视频剪裁	指定输入视频画面经过剪裁后保留的宽度和高度，以及该保留画面与输入画面左边、上边的相对距离，两个画面的间隙自动剪裁。	Crop	不支持
视频贴黑边	指定输入视频画面经过贴黑边后输出的宽度和高度，以及输入画面与输出画面左边、上边的相对位置，两个画面的间隙使用黑边填充。	Pad	不支持
横竖屏自适应	开启后，输出分辨率由宽度、高度，变为长边、短边参数。当您的输入视频同时包含横屏、竖屏时建议开启该参数。	LongShortMode	支持
视频旋转	设置视频旋转角度。	Rotate	支持
视频拼接	将最多100个视频进行拼接，可设置每个被拼接视频的开始、持续时间。	MergeList或MergeConfigUrl	不支持
视频剪辑	视频片段剪辑：从指定时间点，开始截取指定时长的视频。片尾剪辑：截掉指定时长的片尾。	Clip	支持
开场和关板	在视频开头叠加动态Logo，并指定片尾内容。增加产品识别度，突出版权。	OpeningList和TailSlateList	支持添加片尾
模糊处理	对视频内的指定区域进行模糊处理。	DeWatermark	不支持
混音	实现两音轨合并，适用于增加背景音乐场景。	Amix	不支持

视频截图

对视频截取指定时间、指定尺寸的图片，用于生产视频封面、雪碧图、播放器进度条缩略图。

重要

以下功能需要通过提交截图作业使用，按截图张数，收取功能接口请求费用。

功能	说明	API相关参数	控制台操作
静态截图	对视频截取指定时间、指定尺寸的JPG图片。提供以下几种采样方式：单张截图：在指定时间点截取一张图片。支持同步或异步调用。采样截图：指定截图数量和间隔，从指定时间点开始，每隔指定时长（秒）就截取一张截图，截够指定数量或截到视频结尾停止。仅支持异步调用。平均截图：指定截图数量，从指定时间点开始，按相同的时间间隔进行截图，截到视频结尾停止。仅支持异步调用。时间点截图：指定一组时间点，按这些时间点进行截图。仅支持异步调用。	SnapshotConfig	支持
雪碧截图	设置后，对截取的一系列静态图片，会按照指定的排列规则拼成一张大图，这张大图即为雪碧图。格式为JPG。仅支持异步调用。通过一次请求雪碧图可获取多张图片的信息，实现大幅降低图片请求数量，提高客户端性能。	TileOut、TileOutputFile	不支持
WebVTT截图	设置后，对截取的一系列静态图片或雪碧图，会生成VTT文件，文件包含截图时间、截图文件地址、雪碧图坐标信息。在使用图片时需要先获取VTT文件，解析图片的信息进行展示。可用于播放器进度条缩略图展示。	SubOut	支持
关键帧截图	设置后，只截取关键帧。如对应指定时间点为非关键帧，则就近选取关键帧。	FrameType	支持
首帧黑屏检测	对于首帧图片（time=0）可以使用黑屏检测。通过设置黑色像素的画面比例和颜色值定义黑屏。截图时会检测视频的前5秒，如果有非黑屏图片，则截取非黑屏图片；否则，单图任务返回失败，多图任务截取第一帧黑屏图片。	BlackLevel、PixelBlackThreshold	支持

视频水印（明水印）

在视频中添加可见的明水印（例如，企业Logo、电视台台标），突出品牌和版权，增加产品识别度。为视频添加不可见的盲水印用于版权追溯，详细说明请参见下文数字水印（暗水印）说明。

重要

以下功能需要通过提交转码作业使用，指定水印素材和水印模板（可选）使用，按输出的视频规格和时长，收取转码费用；同时按水印个数，收取功能接口请求费用。

功能	说明	API相关参数	控制台操作
图片水印	单个视频最多添加4组水印，支持设置水印开始时间、持续时长、出现的固定位置、水印大小。图片水印支持PNG静态图片（扩展名.png）、PNG动图（扩展名.apng）、MOV文件（扩展名.mov）、GIF文件（扩展名.gif）。支持使用水印模板简化开发。	WaterMarks	支持
文字水印	单个视频最多添加4组水印，支持设置水印开始时间、持续时长、出现的固定位置、水印大小。文字水印可设置文字内容、字号、字体、颜色、透明度、描边效果等。支持的字体及颜色请参见字体支持、颜色。不支持使用水印模板。	WaterMarks	不支持

添加字幕

在视频中添加字幕，在多语言片源、或视频静音或环境嘈杂的场景、或令听障人士也能无障碍的理解和欣赏视频。

重要

以下功能需要通过提交转码作业或配置工作流发起转码使用，按输出的视频规格和时长，收取转码费用。

功能	说明	API相关参数	控制台操作
打包字幕	通过工作流打包将字幕文件与音视频流打包到同一个Master Playlist（m3u8或mpd文件）中，一个Master Playlis最多添加4路字幕，可以实现在播放器中切换多版本字幕的能力。字幕格式：HLS打包支持VTT，DASH打包支持VTT、STL、TTML。	HLS打包：ExtXMedia DASH打包：inputconfig	支持

视频打包

打包是指将多码率、多音轨、多字幕、多音轨生成一个Master Playlist文件的过程。在流媒体播放场景下，可以实现：

自适应码流：根据网络情况自适应码流，可以解决起播慢、播放卡顿问题。
广告植入：在两个分片之间灵活插入视频广告。

重要

以下功能需要通过配置工作流发起转码使用，按输出的视频规格、时长，收取转码费用。

功能	说明	API相关参数	控制台操作
HLS协议	使用Apple HLS协议进行打包，支持二级索引，索引文件格式为m3u8，视频文件格式为ts。	参见如何进行HLS打包	支持
CMAF协议	用CMAF协议进行打包，支持输出HLS或DASH格式。	暂无	不支持
自定义分片时长	指定最多10个分片时间点，和其余时长的分片间隔。范围1至60秒。有助于用户根据播放端带宽条件来设定切片时长，降低用户首屏加载时间。	Segment	不支持

视频加密

重要

以下功能需要通过配置工作流发起转码使用，按输出的视频规格、时长，收取转码费用。

功能	说明	API相关参数	控制台操作
HLS标准加密	将视频内容按照HLS AES-128标准协议进行加密，密钥支持自建或使用KMS服务，在HLS规定的播放器上均可解密播放。可保障移动端视频安全。具有安全级别较高、终端兼容性好的优点。	不涉及	支持
阿里云私有加密	将视频文件按照阿里云私有加密协议进行加密，转成加密的HLS格式，密钥必须使用KMS服务，播放必须使用阿里云播放器进行解密播放，即使将文件下载到本地也无法播放和二次传播。可保障移动端、FLASH端视频安全。具有安全级别高，适用于在线教育，付费观看等场景。	不涉及	支持

视频AI

智能审核

对媒体文件的标题、简介、封面、视频、音频等内容进行审核，有效识别违规内容。应用于短视频平台、直播平台、传媒审核等场景。

重要

以下功能需要通过提交媒体审核作业使用，按成功处理的视频时长，收取智能审核费用。

功能	审核内容	说明
媒体内容审核	涉黄识别	识别语音、文字、画面中的色情和性感内容。
	暴恐涉政识别	识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。
	广告/二维码识别	识别媒体文件中的文字、水印、二维码，有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。
	Logo识别	识别视频图片中的各种Logo图标，如台标、商标、水印等，常用于版权保护等场景。
	不良场景识别	识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。
	语音垃圾识别	识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息，支持中文、英文语音识别。

视频DNA

基于阿里云视频指纹技术，通过指纹特征来唯一标记一个视频/音频/图片/文本，提供视频、图像、音频等指纹特征提取、对比功能，可以解决重复视频查找、视频片段查源等问题。。

重要

以下功能需要通过提交DNA作业使用，按成功处理的音视频时长，收取视频DNA费用。

功能	说明
视频DNA	提取视频画面指纹，支持入库分析及指纹特征比对，查找库内相似视频。
音频DNA	提取音频指纹，支持入库分析及指纹特征比对，查找库内相似音频。
图片DNA	提取图片画面指纹，支持入库分析及指纹特征比对，查找库内相似图片。
文本DNA	提取文本内容指纹，支持入库分析及指纹特征比对，查找库内相似文本。

服务管理

类别	说明	API相关参数	控制台操作
媒体管理	媒体视频文件上传、管理与发布。	不涉及	不涉及
工作流编排	云端自动化处理工作流，音视频上传完毕后自动执行处理流程。	不涉及	支持
转码模板	转码模板是一系列转码参数的集合，在创建转码任务或使用工作流时，可以使用转码模板简化操作。按创建来源分为自定义模板、定制模板、系统预置模板。	TemplateId	支持
水印模板	水印模板是一系列包含水印位置、大小的参数，使用水印模板，可以帮助您简化开发操作。	WaterMarkTemplateId	支持
转码优先级	设置任务在管道内的转码优先级，最多分为10级。	Priority	不支持
条件转码	对比原视频的视频码率、视频分辨率、音频码率是否小于指定输出设置，如果小于则按原画或不转码。	IsCheckReso、IsCheckResoFail等	支持
管道队列	媒体处理转码、异步截图等作业为异步处理，需要加入管道中被调度执行。支持创建多个任务管道，并设置任务在管道内的转码优先级，最多分为10级。	Priority	不支持
消息通知	媒体处理转码、异步截图等作业为异步处理。通过集成MNS服务，为管道或工作流绑定主题或队列通知，当任务完成、工作流开始和结束时会通过MNS主动推送给用户。	NotifyConfig	支持

音视频转码

窄带高清TM

音频增强

音频增强

倍速转码

更多处理

媒体信息

简单剪辑

视频截图

视频水印（明水印）

添加字幕

视频打包

视频加密

视频AI

智能审核

视频DNA

服务管理

窄带高清^TM