全部產品
Search
文件中心

ApsaraVideo Media Processing:功能特性

更新時間:Jul 03, 2024

ApsaraVideo for Media Processing可以將一個音視頻檔案轉換成另一個或多個音視頻檔案,以適應不同網路頻寬、終端裝置和使用者的需求。對媒體的內容、文字、語音、情境進行多模態分析,實現智能審核、內容理解、智能編輯等多種處理功能。

音視頻轉碼

把音視頻碼流轉換為另一種清晰度、編碼格式或封裝格式,以適應不同網路頻寬、不同終端播放裝置的使用情境。ApsaraVideo for Media Processing覆蓋了主流編碼及封裝格式,並且支援在轉碼過程中添加浮水印、字幕、簡單剪輯等處理,詳見下文。未在控制台或API展示的功能,請通過商務人員聯絡技術團隊。

重要

以下功能需要提交轉碼作業使用,按照輸出的視頻規格和時間長度,收取普通轉碼費用。計費說明請參見轉碼定價

參數

類型

說明

輸入檔案

封裝格式

  • 視頻:3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF、VOB。

  • 音頻:AAC、FLAC、M4A、MP3、MP4、OGG。

  • 字幕:ASS、SSA、SRT、VTT。

視頻編碼格式

Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。

音頻編碼格式

AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。

檔案大小

最大100 GB。

色彩空間

4:2:2、4:2:0等。

輸出檔案

封裝格式

說明
  • 封裝格式與編碼格式需要搭配使用,支援規則請參見格式支援。未在控制台或API展示的功能請通過商務人員聯絡技術團隊。

  • 轉封裝不改變音視頻流的編碼方式,僅改變封裝格式。支援輸出MP4、HLS、FLV三種格式。

  • 視頻:HLS、DASH、CMAF、3GP、AVI、FLV、F4V、fMP4、MKV、MOV、MP4、MPEG、TS、MXF、WebM。

  • 動圖:GIF、WEBP。

  • 音頻:AAC、M4A、MP2、MP3、MP4、OGG、FLAC、WAV。

編碼格式

  • 視頻:H.263、H.264/AVC、 H.265/HEVC、H.266/VVC、VP8、VP9、AV1、AVC-Introa、AVS2、MPEG-1、MPEG-2、MPEG-2 422、MPEG-4、Apple ProRes。

  • 動圖:GIF、WEBP。

  • 音頻:AAC、AC3、EAC3、MP2、MP3、FLAC、OPUS、VORBIS、Windows Media Audio、pcm_s16le。

編碼層級

  • H.264支援Baseline、Main、High三種編碼層級。

  • AAC支援aac_low、aac_he、aac_he_v2、aac_ld、aac_eld五種編碼層級。

解析度

  • H.264輸出解析度範圍為[128,4096],單位為px。

  • H.265、H.266、AV1輸出解析度範圍為[128,8192],單位為px。

碼率

  • H.264輸出碼率範圍為[10,50000],單位為Kbps。

  • H.265、H.266、AV1輸出碼率範圍為[10,200000],單位為Kbps。

幀率

輸出幀率範圍為(0,60],單位為fps。

採樣位深

  • H.264支援8bit。

  • H.265支援最高12bit。

顏色格式

yuv420p,yuvj420p,yuv422p,yuvj422p,yuv444p,yuvj444等。

碼率控制

VBR、CBR、ABR、CRF。

掃描模式

支援原視頻模式、自動去隔行、交叉掃描、順序掃描。

窄帶高清TM

窄帶高清TM是一項基於阿里雲轉碼技術的ApsaraVideo for Media Processing功能,通過提高視頻壓縮率、減小檔案體積,從而減少播放卡頓並節省儲存和流量費用。

重要

以下功能需要在提交轉碼作業時選擇對應窄帶高清轉碼模板使用,按照輸出的視頻規格和時間長度,收取窄帶高清轉碼費用。

類型

說明

窄帶高清TM1.0

針對視頻畫面情境、動作、內容、紋理等細節進行智能分析,實現在同等畫質下平均節約20~40%碼率、在同等頻寬下更高清的觀看體驗。支援H.264、H.265編碼,其他參數同普通轉碼。單擊線上體驗

窄帶高清TM2.0

突破視頻編碼器能力上限並融入輕量畫質修複與增強能力,實現在同等畫質下平均節約40%~60%碼率、在低頻寬下更高清優質的觀看體驗。支援H.264、H.265編碼,其他參數同普通轉碼。單擊線上體驗

音頻增強

音頻增強

視頻雲音頻實驗室有機結合傳統訊號處理與深度學習技術,提供全情境音頻增強與修複方案。

重要

以下功能需要在提交轉碼作業配置相應參數使用,音頻部分按照輸出的音頻規格和時間長度,收取音視頻增強費用。視頻部分按照使用的服務,收取轉碼費用。如需開啟音頻增強轉碼模板,請搜尋DingTalk群32171220入群聯絡阿里雲技術人員配置。

功能

說明

音效增強

支援對單/雙/5.1/7.1多頻道音訊進行效果增強,針對耳機、外放等不同播放環境,提供影視級品質、自然、清晰、可定製的音效氛圍,適用於音樂、演講、影視內容情境。

音量歸一

智能調節視頻響度,進行歸一化處理。解決短視頻、音樂連播情境下,因內容來源音量參差不齊,帶來音量忽大忽小的問題。

倍速轉碼

將視頻源切分為多個較小的片段後並行轉碼,可將轉碼速度提升5~30倍,顯著縮短處理耗時,適用於對首發、時效性要求較高的資訊、賽事、重要內容情境。

重要

通過提交轉碼作業並啟用倍速管道為轉碼任務提速。除收取原本音視頻轉碼或音視頻增強費用外,會按輸出的視頻規格、時間長度和實際倍速,額外收取倍速費用。

類型

說明

加速倍數

根據輸入視頻情況,一般可達到5~30倍。支援在倍速管道上設定預期倍速,如5倍速、10倍速、20倍速、30倍速等。

適用視頻

推薦30分鐘以上的長視頻,或對高幀率、超高清、音畫增強等複雜處理的視頻採用倍速轉碼。詳細說明,請參見倍速轉碼使用限制

倍速策略

並非所有視頻都支援切片,投遞到倍速管道中但不支援倍速的視頻,會預設退避到非倍速模式轉碼。

更多處理

媒體資訊

擷取儲存於OSS上的音視頻檔案資訊,包括解析度、碼率、幀率、編碼格式、檔案格式等關鍵資訊。

重要

該功能需要通過提交媒體資訊作業使用,按請求次數,收取功能介面請求費用。

簡單剪輯

對視頻進行提取音頻、提取視頻、拼接、剪輯、混音等簡單的二次創作。

重要

以下功能需要通過提交轉碼作業時設定相應參數使用,按輸出的視頻規格和時間長度,收取轉碼費用。

功能

說明

API相關參數

控制台操作

提取音頻

從視頻檔案中單獨分離出音頻,即禁用視頻。

Remove

支援

提取視頻

從視頻檔案中單獨分離出視頻,即禁用音頻。

Remove

支援

視頻去黑邊

檢測視頻畫面中的黑邊,並自動剪裁。

Crop

不支援

視頻剪裁

指定輸入視頻畫面經過剪裁後保留的寬度和高度,以及該保留畫面與輸入畫面左邊、上邊的相對距離,兩個畫面的間隙自動剪裁。

Crop

不支援

視頻貼黑邊

指定輸入視頻畫面經過貼黑邊後輸出的寬度和高度,以及輸入畫面與輸出畫面左邊、上邊的相對位置,兩個畫面的間隙使用黑邊填充。

Pad

不支援

橫豎屏自適應

開啟後,輸出解析度由寬度、高度,變為長邊、短邊參數。當您的輸入視頻同時包含橫屏、豎屏時建議開啟該參數。

LongShortMode

支援

視頻旋轉

設定視頻旋轉角度。

Rotate

支援

視頻拼接

將最多100個視頻進行拼接,可設定每個被拼接視頻的開始、期間。

MergeList或MergeConfigUrl

不支援

視訊剪輯

  • 視頻片段剪輯:從指定時間點,開始截取指定時間長度的視頻。

  • 片尾剪輯:截掉指定時間長度的片尾。

Clip

支援

開場和關板

在視頻開頭疊加動態Logo,並指定片尾內容。增加產品識別度,突出著作權。

OpeningList和TailSlateList

支援添加片尾

模糊處理

對視頻內的指定地區進行模糊處理。

DeWatermark

不支援

混音

實現兩音軌合并,適用於增加背景音樂情境。

Amix

不支援

視頻截圖

對視頻截取指定時間、指定尺寸的圖片,用於生產視頻封面、雪碧圖、播放器進度條縮圖。

重要

以下功能需要通過提交截圖作業使用,按截圖張數,收取功能介面請求費用。

功能

說明

API相關參數

控制台操作

靜態截圖

對視頻截取指定時間、指定尺寸的JPG圖片。提供以下幾種採樣方式:

  • 單張截圖:在指定時間點截取一張圖片。支援同步或非同步呼叫。

  • 採樣截圖:指定截圖數量和間隔,從指定時間點開始,每隔指定時間長度(秒)就截取一張截圖,截夠指定數量或截到視頻結尾停止。僅支援非同步呼叫。

  • 平均截圖:指定截圖數量,從指定時間點開始,按相同的時間間隔進行截圖,截到視頻結尾停止。僅支援非同步呼叫。

  • 時間點截圖:指定一組時間點,按這些時間點進行截圖。僅支援非同步呼叫。

SnapshotConfig

支援

雪碧截圖

設定後,對截取的一系列靜態圖片,會按照指定的排列規則拼成一張大圖,這張大圖即為雪碧圖。格式為JPG。僅支援非同步呼叫。通過一次請求雪碧圖可擷取多張圖片的資訊,實現大幅降低圖片請求數量,提高用戶端效能。

TileOut、TileOutputFile

不支援

WebVTT截圖

設定後,對截取的一系列靜態圖片或雪碧圖,會產生VTT檔案,檔案包含截圖時間、截圖檔案地址、雪碧圖座標資訊。在使用圖片時需要先擷取VTT檔案,解析圖片的資訊進行展示。可用於播放器進度條縮圖展示。

SubOut

支援

主要畫面格截圖

設定後,只截取主要畫面格。如對應指定時間點為非主要畫面格,則就近選取主要畫面格。

FrameType

支援

首幀黑屏檢測

對於首幀圖片(time=0)可以使用黑屏檢測。通過設定黑色像素的畫面比例和顏色值定義黑屏。截圖時會檢測視頻的前5秒,如果有非黑屏圖片,則截取非黑屏圖片;否則,單圖任務返回失敗,多圖任務截取第一幀黑屏圖片。

BlackLevel、PixelBlackThreshold

支援

視頻浮水印(明浮水印)

在視頻中添加可見的明浮水印(例如,企業Logo、電視台台標),突出品牌和著作權,增加產品識別度。為視頻添加不可見的盲浮水印用於著作權追溯,詳細說明請參見下文數字浮水印(暗浮水印)說明。

重要

以下功能需要通過提交轉碼作業使用,指定浮水印素材和浮水印模板(可選)使用,按輸出的視頻規格和時間長度,收取轉碼費用;同時按浮水印個數,收取功能介面請求費用。

功能

說明

API相關參數

控制台操作

圖片浮水印

  • 單個視頻最多添加4組浮水印,支援設定浮水印開始時間、持續時間長度、出現的固定位置、浮水印大小。

  • 圖片浮水印支援PNG靜態圖片(副檔名.png)、PNG動圖(副檔名.apng)、MOV檔案(副檔名.mov)、GIF檔案(副檔名.gif)。

  • 支援使用浮水印模板簡化開發。

WaterMarks

支援

文字浮水印

  • 單個視頻最多添加4組浮水印,支援設定浮水印開始時間、持續時間長度、出現的固定位置、浮水印大小。

  • 文字浮水印可設定文字內容、字型大小、字型、顏色、透明度、描邊效果等。支援的字型及顏色請參見字型支援顏色

  • 不支援使用浮水印模板。

WaterMarks

不支援

添加字幕

在視頻中添加字幕,在多語言片源、或視頻靜音或環境嘈雜的情境、或令聽障人士也能無障礙的理解和欣賞視頻。

重要

以下功能需要通過提交轉碼作業配置工作流程發起轉碼使用,按輸出的視頻規格和時間長度,收取轉碼費用。

功能

說明

API相關參數

控制台操作

打包字幕

通過工作流程打包將字幕檔案與音視頻流打包到同一個Master Playlist(m3u8或mpd檔案)中,一個Master Playlis最多添加4路字幕,可以實現在播放器中切換多版本字幕的能力。字幕格式:HLS打包支援VTT,DASH打包支援VTT、STL、TTML。

  • HLS打包:ExtXMedia

  • DASH打包:inputconfig

支援

視頻打包

打包是指將多碼率、多音軌、多字幕、多音軌產生一個Master Playlist檔案的過程。在流媒體播放情境下,可以實現:

  • 自適應碼流:根據網路情況自適應碼流,可以解決起播慢、播放卡頓問題。

  • 廣告植入:在兩個分區之間靈活插入視頻廣告。

重要

以下功能需要通過配置工作流程發起轉碼使用,按輸出的視頻規格、時間長度,收取轉碼費用。

功能

說明

API相關參數

控制台操作

HLS協議

使用Apple HLS協議進行打包,支援二級索引,索引檔案格式為m3u8,視頻檔案格式為ts。

參見如何進行HLS打包

支援

CMAF協議

用CMAF協議進行打包,支援輸出HLS或DASH格式。

暫無

不支援

自訂分區時間長度

指定最多10個分區時間點,和其餘時間長度的分區間隔。範圍1至60秒。有助於使用者根據播放端頻寬條件來設定切片時間長度,降低使用者首屏載入時間。

Segment

不支援

視頻加密

重要

以下功能需要通過配置工作流程發起轉碼使用,按輸出的視頻規格、時間長度,收取轉碼費用。

功能

說明

API相關參數

控制台操作

HLS標準加密

將視頻內容按照HLS AES-128標準協議進行加密,密鑰支援自建或使用KMS服務,在HLS規定的播放器上均可解密播放。可保障移動端視頻安全。具有安全層級較高、終端相容性好的優點。

不涉及

支援

阿里雲私人加密

將視頻檔案按照阿里雲私人加密協議進行加密,轉成加密的HLS格式,密鑰必須使用KMS服務,播放必須使用阿里雲播放器進行解密播放,即使將檔案下載到本地也無法播放和二次傳播。可保障移動端、FLASH端視頻安全。具有安全層級高,適用於線上教育,付費觀看等情境。

不涉及

支援

視頻AI

智能審核

對媒體檔案的標題、簡介、封面、視頻、音頻等內容進行審核,有效識別違規內容。應用於短視頻平台、直播平台、傳媒審核等情境。

重要

以下功能需要通過提交媒體審核作業使用,按成功處理的視頻時間長度,收取智能審核費用。

功能

審核內容

說明

媒體內容審核

涉黃識別

識別語音、文字、畫面中的色情和性感內容。

暴恐涉政識別

識別武器、血腥場面、特殊裝束、爆炸煙光、特殊標識、聚眾、遊行等十餘個維度暴恐涉政內容。

廣告/二維碼識別

識別媒體檔案中的文字、浮水印、二維碼,有效識別牛皮癬廣告、二維碼、小程式碼等多種形式的圖文廣告。

Logo識別

識別視頻圖片中的各種Logo表徵圖,如台標、商標、浮水印等,常用於著作權保護等情境。

不良情境識別

識別畫中畫、吸煙、車內直播、無意義畫面等需要監管的不良情境。

語音垃圾識別

識別語音中存在的涉黃、暴恐涉政、辱罵等違規資訊,支援中文、英文語音辨識。

視頻DNA

基於阿里雲視頻指紋技術,通過指紋特徵來唯一標記一個視頻/音頻/圖片/文本,提供視頻、映像、音頻等指紋特徵提取、對比功能,可以解決重複視頻尋找、視頻片段查源等問題。

重要

以下功能需要通過提交DNA作業使用,按成功處理的音視頻時間長度,收取視頻DNA費用。

功能

說明

視頻DNA

提取視頻畫面指紋,支援入庫分析及指紋特徵比對,尋找庫內相似視頻。

音頻DNA

提取音頻指紋,支援入庫分析及指紋特徵比對,尋找庫內相似音頻。

圖片DNA

提取圖片畫面指紋,支援入庫分析及指紋特徵比對,尋找庫內相似圖片。

文本DNA

提取常值內容指紋,支援入庫分析及指紋特徵比對,尋找庫內相似文本。

服務管理

類別

說明

API相關參數

控制台操作

媒體管理

媒體視頻檔案上傳、管理與發布。

不涉及

不涉及

工作流程編排

雲端自動化處理工作流程,音視頻上傳完畢後自動執行處理流程。

不涉及

支援

轉碼模板

轉碼模板是一系列轉碼參數的集合,在建立轉碼任務或使用工作流程時,可以使用轉碼模板簡化操作。按建立來源分為自訂模板、定製模板、系統預置模板。

TemplateId

支援

浮水印模板

浮水印模板是一系列包含浮水印位置、大小的參數,使用浮水印模板,可以協助您簡化開發操作。

WaterMarkTemplateId

支援

轉碼優先順序

設定任務在管道內的轉碼優先順序,最多分為10級。

Priority

不支援

條件轉碼

對比原視頻的視頻碼率、視頻解析度、音頻碼率是否小於指定輸出設定,如果小於則按原畫或不轉碼。

IsCheckReso、IsCheckResoFail等

支援

管道隊列

ApsaraVideo for Media Processing轉碼、非同步截圖等作業為非同步處理,需要加入管道中被調度執行。支援建立多個任務管道,並設定任務在管道內的轉碼優先順序,最多分為10級。

Priority

不支援

訊息通知

ApsaraVideo for Media Processing轉碼、非同步截圖等作業為非同步處理。通過整合MNS服務,為管道或工作流程綁定主題或隊列通知,當任務完成、工作流程開始和結束時會通過MNS主動推送給使用者。

NotifyConfig

支援