ApsaraVideo for Media Processing轉碼、加密、AI功能介紹 - ApsaraVideo Media Processing

ApsaraVideo for Media Processing可以將一個音視頻檔案轉換成另一個或多個音視頻檔案，以適應不同網路頻寬、終端裝置和使用者的需求。對媒體的內容、文字、語音、情境進行多模態分析，實現智能審核、內容理解、智能編輯等多種處理功能。

音視頻轉碼

把音視頻碼流轉換為另一種清晰度、編碼格式或封裝格式，以適應不同網路頻寬、不同終端播放裝置的使用情境。ApsaraVideo for Media Processing覆蓋了主流編碼及封裝格式，並且支援在轉碼過程中添加浮水印、字幕、簡單剪輯等處理，詳見下文。未在控制台或API展示的功能，請通過商務人員聯絡技術團隊。

重要

以下功能需要提交轉碼作業使用，按照輸出的視頻規格和時間長度，收取普通轉碼費用。計費說明請參見轉碼定價。

參數	類型	說明
輸入檔案	封裝格式	視頻：3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MKV、MOV、TS、WebM、MXF、VOB。音頻：AAC、FLAC、M4A、MP3、MP4、OGG。字幕：ASS、SSA、SRT、VTT。
	視頻編碼格式	Apple ProRes、AVS+、AVS、AVS2、H.263、 H.263+、H.264/AVC、H.265/HEVC、H.266/VVC、MJPEG、MPEG-1、MPEG-2、MPEG-4、Quicktime、RealVideo、VP8、VP9、Windows Media Video。
	音頻編碼格式	AAC、AC3、ADPCM、AMR、DSD、EAC3、MP1、MP2、MP3、PCM、RealAudio、Vorbis、Windows Media Audio。
	檔案大小	最大100 GB。
	色彩空間	4:2:2、4:2:0等。
輸出檔案	封裝格式	說明封裝格式與編碼格式需要搭配使用，支援規則請參見格式支援。未在控制台或API展示的功能請通過商務人員聯絡技術團隊。轉封裝不改變音視頻流的編碼方式，僅改變封裝格式。支援輸出MP4、HLS、FLV三種格式。視頻：HLS、DASH、CMAF、3GP、AVI、FLV、F4V、fMP4、MKV、MOV、MP4、MPEG、TS、MXF、WebM。動圖：GIF、WEBP。音頻：AAC、M4A、MP2、MP3、MP4、OGG、FLAC、WAV。
	編碼格式	視頻：H.263、H.264/AVC、 H.265/HEVC、H.266/VVC、VP8、VP9、AV1、AVC-Introa、AVS2、MPEG-1、MPEG-2、MPEG-2 422、MPEG-4、Apple ProRes。動圖：GIF、WEBP。音頻：AAC、AC3、EAC3、MP2、MP3、FLAC、OPUS、VORBIS、Windows Media Audio、pcm_s16le。
	編碼層級	H.264支援Baseline、Main、High三種編碼層級。 AAC支援aac_low、aac_he、aac_he_v2、aac_ld、aac_eld五種編碼層級。
	解析度	H.264輸出解析度範圍為[128,4096]，單位為px。 H.265、H.266、AV1輸出解析度範圍為[128,8192]，單位為px。
	碼率	H.264輸出碼率範圍為[10,50000]，單位為Kbps。 H.265、H.266、AV1輸出碼率範圍為[10,200000]，單位為Kbps。
	幀率	輸出幀率範圍為(0,60]，單位為fps。
	採樣位深	H.264支援8bit。 H.265支援最高12bit。
	顏色格式	yuv420p，yuvj420p，yuv422p，yuvj422p，yuv444p，yuvj444等。
	碼率控制	VBR、CBR、ABR、CRF。
	掃描模式	支援原視頻模式、自動去隔行、交叉掃描、順序掃描。

窄帶高清^TM

窄帶高清^TM是一項基於阿里雲轉碼技術的ApsaraVideo for Media Processing功能，通過提高視頻壓縮率、減小檔案體積，從而減少播放卡頓並節省儲存和流量費用。

重要

以下功能需要在提交轉碼作業時選擇對應窄帶高清轉碼模板使用，按照輸出的視頻規格和時間長度，收取窄帶高清轉碼費用。

類型	說明
窄帶高清^TM1.0	針對視頻畫面情境、動作、內容、紋理等細節進行智能分析，實現在同等畫質下平均節約20～40%碼率、在同等頻寬下更高清的觀看體驗。支援H.264、H.265編碼，其他參數同普通轉碼。單擊線上體驗。
窄帶高清^TM2.0	突破視頻編碼器能力上限並融入輕量畫質修複與增強能力，實現在同等畫質下平均節約40%～60%碼率、在低頻寬下更高清優質的觀看體驗。支援H.264、H.265編碼，其他參數同普通轉碼。單擊線上體驗

音頻增強

視頻雲音頻實驗室有機結合傳統訊號處理與深度學習技術，提供全情境音頻增強與修複方案。

重要

以下功能需要在提交轉碼作業時配置相應參數使用，音頻部分按照輸出的音頻規格和時間長度，收取音視頻增強費用。視頻部分按照使用的服務，收取轉碼費用。如需開啟音頻增強轉碼模板，請搜尋DingTalk群32171220入群聯絡阿里雲技術人員配置。

功能	說明
音效增強	支援對單/雙/5.1/7.1多頻道音訊進行效果增強，針對耳機、外放等不同播放環境，提供影視級品質、自然、清晰、可定製的音效氛圍，適用於音樂、演講、影視內容情境。
音量歸一	智能調節視頻響度，進行歸一化處理。解決短視頻、音樂連播情境下，因內容來源音量參差不齊，帶來音量忽大忽小的問題。

倍速轉碼

將視頻源切分為多個較小的片段後並行轉碼，可將轉碼速度提升5～30倍，顯著縮短處理耗時，適用於對首發、時效性要求較高的資訊、賽事、重要內容情境。

重要

通過提交轉碼作業並啟用倍速管道為轉碼任務提速。除收取原本音視頻轉碼或音視頻增強費用外，會按輸出的視頻規格、時間長度和實際倍速，額外收取倍速費用。

類型	說明
加速倍數	根據輸入視頻情況，一般可達到5～30倍。支援在倍速管道上設定預期倍速，如5倍速、10倍速、20倍速、30倍速等。
適用視頻	推薦30分鐘以上的長視頻，或對高幀率、超高清、音畫增強等複雜處理的視頻採用倍速轉碼。詳細說明，請參見倍速轉碼使用限制。
倍速策略	並非所有視頻都支援切片，投遞到倍速管道中但不支援倍速的視頻，會預設退避到非倍速模式轉碼。

更多處理

媒體資訊

擷取儲存於OSS上的音視頻檔案資訊，包括解析度、碼率、幀率、編碼格式、檔案格式等關鍵資訊。

重要

該功能需要通過提交媒體資訊作業使用，按請求次數，收取功能介面請求費用。

簡單剪輯

對視頻進行提取音頻、提取視頻、拼接、剪輯、混音等簡單的二次創作。

重要

以下功能需要通過提交轉碼作業時設定相應參數使用，按輸出的視頻規格和時間長度，收取轉碼費用。

功能	說明	API相關參數	控制台操作
提取音頻	從視頻檔案中單獨分離出音頻，即禁用視頻。	Remove	支援
提取視頻	從視頻檔案中單獨分離出視頻，即禁用音頻。	Remove	支援
視頻去黑邊	檢測視頻畫面中的黑邊，並自動剪裁。	Crop	不支援
視頻剪裁	指定輸入視頻畫面經過剪裁後保留的寬度和高度，以及該保留畫面與輸入畫面左邊、上邊的相對距離，兩個畫面的間隙自動剪裁。	Crop	不支援
視頻貼黑邊	指定輸入視頻畫面經過貼黑邊後輸出的寬度和高度，以及輸入畫面與輸出畫面左邊、上邊的相對位置，兩個畫面的間隙使用黑邊填充。	Pad	不支援
橫豎屏自適應	開啟後，輸出解析度由寬度、高度，變為長邊、短邊參數。當您的輸入視頻同時包含橫屏、豎屏時建議開啟該參數。	LongShortMode	支援
視頻旋轉	設定視頻旋轉角度。	Rotate	支援
視頻拼接	將最多100個視頻進行拼接，可設定每個被拼接視頻的開始、期間。	MergeList或MergeConfigUrl	不支援
視訊剪輯	視頻片段剪輯：從指定時間點，開始截取指定時間長度的視頻。片尾剪輯：截掉指定時間長度的片尾。	Clip	支援
開場和關板	在視頻開頭疊加動態Logo，並指定片尾內容。增加產品識別度，突出著作權。	OpeningList和TailSlateList	支援添加片尾
模糊處理	對視頻內的指定地區進行模糊處理。	DeWatermark	不支援
混音	實現兩音軌合并，適用於增加背景音樂情境。	Amix	不支援

視頻截圖

對視頻截取指定時間、指定尺寸的圖片，用於生產視頻封面、雪碧圖、播放器進度條縮圖。

重要

以下功能需要通過提交截圖作業使用，按截圖張數，收取功能介面請求費用。

功能	說明	API相關參數	控制台操作
靜態截圖	對視頻截取指定時間、指定尺寸的JPG圖片。提供以下幾種採樣方式：單張截圖：在指定時間點截取一張圖片。支援同步或非同步呼叫。採樣截圖：指定截圖數量和間隔，從指定時間點開始，每隔指定時間長度（秒）就截取一張截圖，截夠指定數量或截到視頻結尾停止。僅支援非同步呼叫。平均截圖：指定截圖數量，從指定時間點開始，按相同的時間間隔進行截圖，截到視頻結尾停止。僅支援非同步呼叫。時間點截圖：指定一組時間點，按這些時間點進行截圖。僅支援非同步呼叫。	SnapshotConfig	支援
雪碧截圖	設定後，對截取的一系列靜態圖片，會按照指定的排列規則拼成一張大圖，這張大圖即為雪碧圖。格式為JPG。僅支援非同步呼叫。通過一次請求雪碧圖可擷取多張圖片的資訊，實現大幅降低圖片請求數量，提高用戶端效能。	TileOut、TileOutputFile	不支援
WebVTT截圖	設定後，對截取的一系列靜態圖片或雪碧圖，會產生VTT檔案，檔案包含截圖時間、截圖檔案地址、雪碧圖座標資訊。在使用圖片時需要先擷取VTT檔案，解析圖片的資訊進行展示。可用於播放器進度條縮圖展示。	SubOut	支援
主要畫面格截圖	設定後，只截取主要畫面格。如對應指定時間點為非主要畫面格，則就近選取主要畫面格。	FrameType	支援
首幀黑屏檢測	對於首幀圖片（time=0）可以使用黑屏檢測。通過設定黑色像素的畫面比例和顏色值定義黑屏。截圖時會檢測視頻的前5秒，如果有非黑屏圖片，則截取非黑屏圖片；否則，單圖任務返回失敗，多圖任務截取第一幀黑屏圖片。	BlackLevel、PixelBlackThreshold	支援

視頻浮水印（明浮水印）

在視頻中添加可見的明浮水印（例如，企業Logo、電視台台標），突出品牌和著作權，增加產品識別度。為視頻添加不可見的盲浮水印用於著作權追溯，詳細說明請參見下文數字浮水印（暗浮水印）說明。

重要

以下功能需要通過提交轉碼作業使用，指定浮水印素材和浮水印模板（可選）使用，按輸出的視頻規格和時間長度，收取轉碼費用；同時按浮水印個數，收取功能介面請求費用。

功能	說明	API相關參數	控制台操作
圖片浮水印	單個視頻最多添加4組浮水印，支援設定浮水印開始時間、持續時間長度、出現的固定位置、浮水印大小。圖片浮水印支援PNG靜態圖片（副檔名.png）、PNG動圖（副檔名.apng）、MOV檔案（副檔名.mov）、GIF檔案（副檔名.gif）。支援使用浮水印模板簡化開發。	WaterMarks	支援
文字浮水印	單個視頻最多添加4組浮水印，支援設定浮水印開始時間、持續時間長度、出現的固定位置、浮水印大小。文字浮水印可設定文字內容、字型大小、字型、顏色、透明度、描邊效果等。支援的字型及顏色請參見字型支援、顏色。不支援使用浮水印模板。	WaterMarks	不支援

添加字幕

在視頻中添加字幕，在多語言片源、或視頻靜音或環境嘈雜的情境、或令聽障人士也能無障礙的理解和欣賞視頻。

重要

以下功能需要通過提交轉碼作業或配置工作流程發起轉碼使用，按輸出的視頻規格和時間長度，收取轉碼費用。

功能	說明	API相關參數	控制台操作
打包字幕	通過工作流程打包將字幕檔案與音視頻流打包到同一個Master Playlist（m3u8或mpd檔案）中，一個Master Playlis最多添加4路字幕，可以實現在播放器中切換多版本字幕的能力。字幕格式：HLS打包支援VTT，DASH打包支援VTT、STL、TTML。	HLS打包：ExtXMedia DASH打包：inputconfig	支援

視頻打包

打包是指將多碼率、多音軌、多字幕、多音軌產生一個Master Playlist檔案的過程。在流媒體播放情境下，可以實現：

自適應碼流：根據網路情況自適應碼流，可以解決起播慢、播放卡頓問題。
廣告植入：在兩個分區之間靈活插入視頻廣告。

重要

以下功能需要通過配置工作流程發起轉碼使用，按輸出的視頻規格、時間長度，收取轉碼費用。

功能	說明	API相關參數	控制台操作
HLS協議	使用Apple HLS協議進行打包，支援二級索引，索引檔案格式為m3u8，視頻檔案格式為ts。	參見如何進行HLS打包	支援
CMAF協議	用CMAF協議進行打包，支援輸出HLS或DASH格式。	暫無	不支援
自訂分區時間長度	指定最多10個分區時間點，和其餘時間長度的分區間隔。範圍1至60秒。有助於使用者根據播放端頻寬條件來設定切片時間長度，降低使用者首屏載入時間。	Segment	不支援

視頻加密

重要

以下功能需要通過配置工作流程發起轉碼使用，按輸出的視頻規格、時間長度，收取轉碼費用。

功能	說明	API相關參數	控制台操作
HLS標準加密	將視頻內容按照HLS AES-128標準協議進行加密，密鑰支援自建或使用KMS服務，在HLS規定的播放器上均可解密播放。可保障移動端視頻安全。具有安全層級較高、終端相容性好的優點。	不涉及	支援
阿里雲私人加密	將視頻檔案按照阿里雲私人加密協議進行加密，轉成加密的HLS格式，密鑰必須使用KMS服務，播放必須使用阿里雲播放器進行解密播放，即使將檔案下載到本地也無法播放和二次傳播。可保障移動端、FLASH端視頻安全。具有安全層級高，適用於線上教育，付費觀看等情境。	不涉及	支援

視頻AI

智能審核

對媒體檔案的標題、簡介、封面、視頻、音頻等內容進行審核，有效識別違規內容。應用於短視頻平台、直播平台、傳媒審核等情境。

重要

以下功能需要通過提交媒體審核作業使用，按成功處理的視頻時間長度，收取智能審核費用。

功能	審核內容	說明
媒體內容審核	涉黃識別	識別語音、文字、畫面中的色情和性感內容。
	暴恐涉政識別	識別武器、血腥場面、特殊裝束、爆炸煙光、特殊標識、聚眾、遊行等十餘個維度暴恐涉政內容。
	廣告/二維碼識別	識別媒體檔案中的文字、浮水印、二維碼，有效識別牛皮癬廣告、二維碼、小程式碼等多種形式的圖文廣告。
	Logo識別	識別視頻圖片中的各種Logo表徵圖，如台標、商標、浮水印等，常用於著作權保護等情境。
	不良情境識別	識別畫中畫、吸煙、車內直播、無意義畫面等需要監管的不良情境。
	語音垃圾識別	識別語音中存在的涉黃、暴恐涉政、辱罵等違規資訊，支援中文、英文語音辨識。

視頻DNA

基於阿里雲視頻指紋技術，通過指紋特徵來唯一標記一個視頻/音頻/圖片/文本，提供視頻、映像、音頻等指紋特徵提取、對比功能，可以解決重複視頻尋找、視頻片段查源等問題。。

重要

以下功能需要通過提交DNA作業使用，按成功處理的音視頻時間長度，收取視頻DNA費用。

功能	說明
視頻DNA	提取視頻畫面指紋，支援入庫分析及指紋特徵比對，尋找庫內相似視頻。
音頻DNA	提取音頻指紋，支援入庫分析及指紋特徵比對，尋找庫內相似音頻。
圖片DNA	提取圖片畫面指紋，支援入庫分析及指紋特徵比對，尋找庫內相似圖片。
文本DNA	提取常值內容指紋，支援入庫分析及指紋特徵比對，尋找庫內相似文本。

服務管理

類別	說明	API相關參數	控制台操作
媒體管理	媒體視頻檔案上傳、管理與發布。	不涉及	不涉及
工作流程編排	雲端自動化處理工作流程，音視頻上傳完畢後自動執行處理流程。	不涉及	支援
轉碼模板	轉碼模板是一系列轉碼參數的集合，在建立轉碼任務或使用工作流程時，可以使用轉碼模板簡化操作。按建立來源分為自訂模板、定製模板、系統預置模板。	TemplateId	支援
浮水印模板	浮水印模板是一系列包含浮水印位置、大小的參數，使用浮水印模板，可以協助您簡化開發操作。	WaterMarkTemplateId	支援
轉碼優先順序	設定任務在管道內的轉碼優先順序，最多分為10級。	Priority	不支援
條件轉碼	對比原視頻的視頻碼率、視頻解析度、音頻碼率是否小於指定輸出設定，如果小於則按原畫或不轉碼。	IsCheckReso、IsCheckResoFail等	支援
管道隊列	ApsaraVideo for Media Processing轉碼、非同步截圖等作業為非同步處理，需要加入管道中被調度執行。支援建立多個任務管道，並設定任務在管道內的轉碼優先順序，最多分為10級。	Priority	不支援
訊息通知	ApsaraVideo for Media Processing轉碼、非同步截圖等作業為非同步處理。通過整合MNS服務，為管道或工作流程綁定主題或隊列通知，當任務完成、工作流程開始和結束時會通過MNS主動推送給使用者。	NotifyConfig	支援

音視頻轉碼

窄帶高清TM

音頻增強

音頻增強

倍速轉碼

更多處理

媒體資訊

簡單剪輯

視頻截圖

視頻浮水印（明浮水印）

添加字幕

視頻打包

視頻加密

視頻AI

智能審核

視頻DNA

服務管理

窄帶高清^TM