媒体处理可以将一个音视频文件转换成另一个或多个音视频文件,以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析,实现智能审核、内容理解、智能编辑等多种处理功能。
音视频转码
把音视频码流转换为另一种清晰度、编码格式或封装格式,以适应不同网络带宽、不同终端播放设备的使用场景。媒体处理覆盖了主流编码及封装格式,并且支持在转码过程中添加水印、字幕、简单剪辑等处理,详见下文。未在控制台或API展示的功能,请通过商务人员联系技术团队。
以下功能需要提交转码作业使用,按照输出的视频规格和时长,收取普通转码费用。计费说明请参见转码定价。
参数 | 类型 | 说明 |
输入文件 | 封装格式 |
|
视频编码格式 | Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。 | |
音频编码格式 | AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。 | |
文件大小 | 最大100 GB。 | |
色彩空间 | 4:2:2、4:2:0等。 | |
输出文件 | 封装格式 | 说明
|
编码格式 |
| |
编码级别 |
| |
分辨率 |
| |
码率 |
| |
帧率 | 输出帧率范围为(0,60],单位为fps。 | |
采样位深 |
| |
颜色格式 | yuv420p,yuvj420p,yuv422p,yuvj422p,yuv444p,yuvj444等。 | |
码率控制 | VBR、CBR、ABR、CRF。 | |
扫描模式 | 支持原视频模式、自动去隔行、交叉扫描、顺序扫描。 |
窄带高清TM
窄带高清TM是一项基于阿里云转码技术的媒体处理功能,通过提高视频压缩率、减小文件体积,从而减少播放卡顿并节省存储和流量费用。
以下功能需要在提交转码作业时选择对应窄带高清转码模板使用,按照输出的视频规格和时长,收取窄带高清转码费用。
类型 | 说明 |
窄带高清TM1.0 | 针对视频画面场景、动作、内容、纹理等细节进行智能分析,实现在同等画质下平均节约20~40%码率、在同等带宽下更高清的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验。 |
窄带高清TM2.0 | 突破视频编码器能力上限并融入轻量画质修复与增强能力,实现在同等画质下平均节约40%~60%码率、在低带宽下更高清优质的观看体验。支持H.264、H.265编码,其他参数同普通转码。单击在线体验 |
音频增强
音频增强
视频云音频实验室有机结合传统信号处理与深度学习技术,提供全场景音频增强与修复方案。
以下功能需要在提交转码作业时配置相应参数使用,音频部分按照输出的音频规格和时长,收取音视频增强费用。视频部分按照使用的服务,收取转码费用。如需开启音频增强转码模板,请搜索钉钉群32171220入群联系阿里云技术人员配置。
功能 | 说明 |
音效增强 | 支持对单/双/5.1/7.1多声道音频进行效果增强,针对耳机、外放等不同播放环境,提供影视级品质、自然、清晰、可定制的音效氛围,适用于音乐、演讲、影视内容场景。 |
音量归一 | 智能调节视频响度,进行归一化处理。解决短视频、音乐连播场景下,因内容源音量参差不齐,带来音量忽大忽小的问题。 |
倍速转码
将视频源切分为多个较小的片段后并行转码,可将转码速度提升5~30倍,显著缩短处理耗时,适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。
通过提交转码作业并启用倍速管道为转码任务提速。除收取原本音视频转码或音视频增强费用外,会按输出的视频规格、时长和实际倍速,额外收取倍速费用。
类型 | 说明 |
加速倍数 | 根据输入视频情况,一般可达到5~30倍。支持在倍速管道上设置预期倍速,如5倍速、10倍速、20倍速、30倍速等。 |
适用视频 | 推荐30分钟以上的长视频,或对高帧率、超高清、音画增强等复杂处理的视频采用倍速转码。详细说明,请参见倍速转码使用限制。 |
倍速策略 | 并非所有视频都支持切片,投递到倍速管道中但不支持倍速的视频,会默认退避到非倍速模式转码。 |
更多处理
媒体信息
获取存储于OSS上的音视频文件信息,包括分辨率、码率、帧率、编码格式、文件格式等关键信息。
该功能需要通过提交媒体信息作业使用,按请求次数,收取功能接口请求费用。
简单剪辑
对视频进行提取音频、提取视频、拼接、剪辑、混音等简单的二次创作。
以下功能需要通过提交转码作业时设置相应参数使用,按输出的视频规格和时长,收取转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
提取音频 | 从视频文件中单独分离出音频,即禁用视频。 | Remove | 支持 |
提取视频 | 从视频文件中单独分离出视频,即禁用音频。 | Remove | 支持 |
视频去黑边 | 检测视频画面中的黑边,并自动剪裁。 | Crop | 不支持 |
视频剪裁 | 指定输入视频画面经过剪裁后保留的宽度和高度,以及该保留画面与输入画面左边、上边的相对距离,两个画面的间隙自动剪裁。 | Crop | 不支持 |
视频贴黑边 | 指定输入视频画面经过贴黑边后输出的宽度和高度,以及输入画面与输出画面左边、上边的相对位置,两个画面的间隙使用黑边填充。 | Pad | 不支持 |
横竖屏自适应 | 开启后,输出分辨率由宽度、高度,变为长边、短边参数。当您的输入视频同时包含横屏、竖屏时建议开启该参数。 | LongShortMode | 支持 |
视频旋转 | 设置视频旋转角度。 | Rotate | 支持 |
视频拼接 | 将最多100个视频进行拼接,可设置每个被拼接视频的开始、持续时间。 | MergeList或MergeConfigUrl | 不支持 |
视频剪辑 |
| Clip | 支持 |
开场和关板 | 在视频开头叠加动态Logo,并指定片尾内容。增加产品识别度,突出版权。 | OpeningList和TailSlateList | 支持添加片尾 |
模糊处理 | 对视频内的指定区域进行模糊处理。 | DeWatermark | 不支持 |
混音 | 实现两音轨合并,适用于增加背景音乐场景。 | Amix | 不支持 |
视频截图
对视频截取指定时间、指定尺寸的图片,用于生产视频封面、雪碧图、播放器进度条缩略图。
以下功能需要通过提交截图作业使用,按截图张数,收取功能接口请求费用。
功能 | 说明 | API相关参数 | 控制台操作 |
静态截图 | 对视频截取指定时间、指定尺寸的JPG图片。提供以下几种采样方式:
| SnapshotConfig | 支持 |
雪碧截图 | 设置后,对截取的一系列静态图片,会按照指定的排列规则拼成一张大图,这张大图即为雪碧图。格式为JPG。仅支持异步调用。通过一次请求雪碧图可获取多张图片的信息,实现大幅降低图片请求数量,提高客户端性能。 | TileOut、TileOutputFile | 不支持 |
WebVTT截图 | 设置后,对截取的一系列静态图片或雪碧图,会生成VTT文件,文件包含截图时间、截图文件地址、雪碧图坐标信息。在使用图片时需要先获取VTT文件,解析图片的信息进行展示。可用于播放器进度条缩略图展示。 | SubOut | 支持 |
关键帧截图 | 设置后,只截取关键帧。如对应指定时间点为非关键帧,则就近选取关键帧。 | FrameType | 支持 |
首帧黑屏检测 | 对于首帧图片(time=0)可以使用黑屏检测。通过设置黑色像素的画面比例和颜色值定义黑屏。截图时会检测视频的前5秒,如果有非黑屏图片,则截取非黑屏图片;否则,单图任务返回失败,多图任务截取第一帧黑屏图片。 | BlackLevel、PixelBlackThreshold | 支持 |
视频水印(明水印)
在视频中添加可见的明水印(例如,企业Logo、电视台台标),突出品牌和版权,增加产品识别度。为视频添加不可见的盲水印用于版权追溯,详细说明请参见下文数字水印(暗水印)说明。
以下功能需要通过提交转码作业使用,指定水印素材和水印模板(可选)使用,按输出的视频规格和时长,收取转码费用;同时按水印个数,收取功能接口请求费用。
功能 | 说明 | API相关参数 | 控制台操作 |
图片水印 |
| WaterMarks | |
文字水印 | WaterMarks | 不支持 |
添加字幕
在视频中添加字幕,在多语言片源、或视频静音或环境嘈杂的场景、或令听障人士也能无障碍的理解和欣赏视频。
以下功能需要通过提交转码作业或配置工作流发起转码使用,按输出的视频规格和时长,收取转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
打包字幕 | 通过工作流打包将字幕文件与音视频流打包到同一个Master Playlist(m3u8或mpd文件)中,一个Master Playlis最多添加4路字幕,可以实现在播放器中切换多版本字幕的能力。字幕格式:HLS打包支持VTT,DASH打包支持VTT、STL、TTML。 |
| 支持 |
视频打包
打包是指将多码率、多音轨、多字幕、多音轨生成一个Master Playlist文件的过程。在流媒体播放场景下,可以实现:
自适应码流:根据网络情况自适应码流,可以解决起播慢、播放卡顿问题。
广告植入:在两个分片之间灵活插入视频广告。
以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
HLS协议 | 使用Apple HLS协议进行打包,支持二级索引,索引文件格式为m3u8,视频文件格式为ts。 | 支持 | |
CMAF协议 | 用CMAF协议进行打包,支持输出HLS或DASH格式。 | 暂无 | 不支持 |
自定义分片时长 | 指定最多10个分片时间点,和其余时长的分片间隔。范围1至60秒。有助于用户根据播放端带宽条件来设定切片时长,降低用户首屏加载时间。 | Segment | 不支持 |
视频加密
以下功能需要通过配置工作流发起转码使用,按输出的视频规格、时长,收取转码费用。
功能 | 说明 | API相关参数 | 控制台操作 |
HLS标准加密 | 将视频内容按照HLS AES-128标准协议进行加密,密钥支持自建或使用KMS服务,在HLS规定的播放器上均可解密播放。可保障移动端视频安全。具有安全级别较高、终端兼容性好的优点。 | 不涉及 | 支持 |
阿里云私有加密 | 将视频文件按照阿里云私有加密协议进行加密,转成加密的HLS格式,密钥必须使用KMS服务,播放必须使用阿里云播放器进行解密播放,即使将文件下载到本地也无法播放和二次传播。可保障移动端、FLASH端视频安全。具有安全级别高,适用于在线教育,付费观看等场景。 | 不涉及 | 支持 |
视频AI
智能审核
对媒体文件的标题、简介、封面、视频、音频等内容进行审核,有效识别违规内容。应用于短视频平台、直播平台、传媒审核等场景。
以下功能需要通过提交媒体审核作业使用,按成功处理的视频时长,收取智能审核费用。
功能 | 审核内容 | 说明 |
媒体内容审核 | 涉黄识别 | 识别语音、文字、画面中的色情和性感内容。 |
暴恐涉政识别 | 识别武器、血腥场面、特殊装束、爆炸烟光、特殊标识、聚众、游行等十余个维度的暴恐涉政内容。 | |
广告/二维码识别 | 识别媒体文件中的文字、水印、二维码,有效识别牛皮癣广告、二维码、小程序码等多种形式的图文广告。 | |
Logo识别 | 识别视频图片中的各种Logo图标,如台标、商标、水印等,常用于版权保护等场景。 | |
不良场景识别 | 识别画中画、吸烟、车内直播、无意义画面等需要监管的不良场景。 | |
语音垃圾识别 | 识别语音中存在的涉黄、暴恐涉政、辱骂等违规信息,支持中文、英文语音识别。 |
视频DNA
基于阿里云视频指纹技术,通过指纹特征来唯一标记一个视频/音频/图片/文本,提供视频、图像、音频等指纹特征提取、对比功能,可以解决重复视频查找、视频片段查源等问题。。
以下功能需要通过提交DNA作业使用,按成功处理的音视频时长,收取视频DNA费用。
功能 | 说明 |
视频DNA | 提取视频画面指纹,支持入库分析及指纹特征比对,查找库内相似视频。 |
音频DNA | 提取音频指纹,支持入库分析及指纹特征比对,查找库内相似音频。 |
图片DNA | 提取图片画面指纹,支持入库分析及指纹特征比对,查找库内相似图片。 |
文本DNA | 提取文本内容指纹,支持入库分析及指纹特征比对,查找库内相似文本。 |
服务管理
类别 | 说明 | API相关参数 | 控制台操作 |
媒体管理 | 媒体视频文件上传、管理与发布。 | 不涉及 | 不涉及 |
工作流编排 | 云端自动化处理工作流,音视频上传完毕后自动执行处理流程。 | 不涉及 | 支持 |
转码模板 | 转码模板是一系列转码参数的集合,在创建转码任务或使用工作流时,可以使用转码模板简化操作。按创建来源分为自定义模板、定制模板、系统预置模板。 | TemplateId | 支持 |
水印模板 | 水印模板是一系列包含水印位置、大小的参数,使用水印模板,可以帮助您简化开发操作。 | WaterMarkTemplateId | 支持 |
转码优先级 | 设置任务在管道内的转码优先级,最多分为10级。 | Priority | 不支持 |
条件转码 | 对比原视频的视频码率、视频分辨率、音频码率是否小于指定输出设置,如果小于则按原画或不转码。 | IsCheckReso、IsCheckResoFail等 | 支持 |
管道队列 | 媒体处理转码、异步截图等作业为异步处理,需要加入管道中被调度执行。支持创建多个任务管道,并设置任务在管道内的转码优先级,最多分为10级。 | Priority | 不支持 |
消息通知 | 媒体处理转码、异步截图等作业为异步处理。通过集成MNS服务,为管道或工作流绑定主题或队列通知,当任务完成、工作流开始和结束时会通过MNS主动推送给用户。 | NotifyConfig | 支持 |