このトピックでは、ApsaraVideo VODの理解に役立つ、形式、エンコード、トランスコードなど、ApsaraVideo VODで使用される一般的な用語について説明します。

ファイル形式

オペレーティングシステムのほとんどのファイル名には、などのファイル名拡張子があります。doc, . jpg、および. avi。 ファイル名拡張子は、ファイルをオペレーティングシステムのアプリケーションに関連付けるために使用されるファイル形式を示します。 このようにして、対応するアプリケーションによってファイルを認識して開くことができます。 ビデオの一般的なファイル名拡張子が含まれます。avi、。mpg、および。mp4。 ビデオファイルは、コンピュータにインストールされているビデオプレーヤーに関連付けて再生できます。

コンテナー形式

コンテナフォーマットまたはマルチメディアコンテナは、圧縮されたビデオおよびオーディオトラックおよびメタデータをファイルにパッケージ化するための仕様を記述する。 メタデータは、タイトルや字幕など、ビデオに関する基本情報を要約します。

コンテナフォーマットは、ストレージ指向フォーマットとストリーミングメディア指向フォーマットの2つのタイプに分類される。

  • 一般的なストレージ指向フォーマットは、AVI、ASF (WMAまたはWMV) 、MP4、MKV、およびRMVB (RMまたはRA) を含む。
  • 一般的なストリーミングメディア指向のフォーマットには、FLV、TS (HLSやRTMPなどのストリーミングメディアネットワーク伝送プロトコルで使用する必要があります) 、およびMP4 (HTTPで使用する必要があります) が含まれます。 HLSはHTTP Live Streamingの略で、RTMPはReal-Time Messaging Protocolの略です。

次の例では、主要なストリーミングメディアネットワーク伝送プロトコルとストリーミングメディア指向のコンテナ形式について説明します。

  • MP4: モバイルデバイス (iOSおよびAndroid) やPC上のwebブラウザなど、複数の端末でサポートされている従来のビデオコンテナ形式。 しかし、MP4ファイルのファイルヘッダは大きく複雑である。 MP4ファイルの継続時間が長い場合 (たとえば、数時間続く場合) 、ファイルヘッダが大きいとビデオの読み込み速度が低下します。 したがって、MP4形式は短いビデオに適しています。

    MP4ファイルは、メディア配置情報や時間情報などのすべてのメディア記述メタデータを含むボックス (以前はアトムと呼ばれていました) で構成されています。 メタデータは、ビデオフレームなどのメディアデータへの参照を提供し、ボックス内のメディアデータの配置は、プライマリファイルのメタデータに記述される。 ビデオの長さが長いほど、ファイルヘッダーが大きくなり、読み込み速度が遅くなります。

  • HLS: Apple Inc. によって開発されたHTTPベースのストリーミングメディアネットワーク伝送プロトコル。 デフォルトでは、このプロトコルはTSコンテナ形式を使用してストリームを複数のTSフラグメントに分割します。 また、再生を制御するM3U8インデックスファイル (テキストファイル) を定義します。 MP4形式と比較して、TS形式はヘッダーデータのバッファリングに長い時間を必要とせず、ApsaraVideo VODシナリオに適用できます。 HLSはモバイルデバイス (iOSおよびAndroid) でサポートされています。 ただし、PC上のInternet Explorerとは互換性がありません。 したがって、HLSにはPC用に開発されたカスタムプレーヤーが必要です。 ApsaraVideo Player for webを使用することを推奨します。
  • FLV: アドビによって導入された標準。 PCのFlash Playerでサポートされていますが、アプリケーションにプレーヤーが実装された後にのみモバイルデバイスでサポートできます。 ほとんどのモバイルデバイス、特にiOSデバイスのブラウザはFLVをサポートしていません。 ApsaraVideo Playerの使用を推奨します。
  • Dynamic Adaptive Streaming over HTTP (DASH): フラグメント化されたMP4 (fMP4) フォーマットを使用して、MP4ビデオを複数のフラグメントに分割する規格。 各フラグメントには、解像度やビットレートなどの独自のコーデック設定を設定できます。 プレーヤーは、必要なフラグメントを再生して、適応ビットレートストリーミングと異なる解像度間のシームレスな切り替えを実現し、より良い再生体験を提供できます。 DASHでは、メディアプレゼンテーション記述 (MPD) ファイルは、HLSにおけるM3U8ファイルの特徴と同様の特徴を提供する。 YouTubeやNetflixなどの多くのビデオWebサイトは、DASHを使用してコンテンツをストリーミングしています。
  • フラグメント化されたMP4を有するHLS (HLS + fMP4): 本質的にHLSプロトコル。 Apple Worldwide Developers Conference (WWDC) 2016中、AppleInc。 新しいHLS規格は、TSフォーマットと同様の方法でfMP4フォーマットをサポートすると発表した。 これは、ビデオファイルをDASHとHLSで同時にトランスコードしてパッケージ化できることを意味します。

    HLS (HLS + fMP4を含む) とDASHはどちらも最も一般的に使用される適応型ストリーミングメディア技術であるため、使用することを推奨します。

Codec

コーデックは、デジタルビデオを圧縮または解凍 (またはデコード) できるプログラムまたはデバイスです。 一般に、このような圧縮は不可逆圧縮である。 コーデックはまた、ビデオをあるフォーマットから別のフォーマットに変換するための圧縮技術を指す。 以下の例では、一般的なコーデックについて説明します。

  1. H.26Xファミリー: 国際電気通信連合 (ITU) が主導。 このファミリは、H.261、H.262、H.263、H.264、およびH.265を含む。

    • H.261: 以前のビデオ会議やビデオ通話で使用されます。
    • H.263: ビデオ会議、ビデオ通話、オンラインビデオで使用されます。
    • H.264: MPEG-4パート10、またはMPEG-4高度ビデオコーディング (MPEG-4 AVC) とも呼ばれます。 これは、ビデオ圧縮規格であり、高精度ビデオの記録、圧縮、および公開に広く使用されているフォーマットです。
    • H.265: 高効率ビデオコーディング (HEVC) としても知られる。 これは、H.264またはMPEG-4 AVCの後継であるビデオ圧縮規格です。 H.264またはMPEG-4 AVCと比較して、HEVCはビデオ品質を改善し、2倍の圧縮比を達成します。これは、同じレベルのビデオ品質で50% のビットレート削減です。 HEVCは、現在の開発トレンドである8K超高解像度 (UHD) を含む最大8192 × 4320の解像度をサポートしています。
  2. MPEGファミリー: 国際標準化機構 (ISO) と提携しているMoving Picture Experts Group (MPEG) が率いる。 このファミリには、次のビデオ圧縮標準が含まれます。

    • MPEG-1パート2: VCDといくつかのオンラインビデオで使用されます。 この規格によって提供されるビデオ品質は、VHSのものと同様である。
    • MPEG-2パート2: H.262に相当し、DVD、SVCD、およびほとんどのデジタルビデオ放送システムとケーブル配信システムで使用されます。
    • MPEG-4パート2: ネットワーク伝送、放送、およびメディアストレージで使用されます。 この規格は、MPEG-2およびH.263 V1よりも優れた圧縮性能を提供します。
    • MPEG-4パート10: ITU-TのH.264と同じ技術的な内容。 ITU-TおよびMPEGは、H.264またはMPEG-4 AVC規格を開発するために協働する。 ITU-Tはこの規格をH.264と名付け、ISOとIECはMPEG-4 AVCと名付けました。
  3. Audio Video Coding Standard (AVS): 中国のワークグループによって策定された一連のデジタルオーディオおよびビデオコーディング標準。 これは、情報技術: オーディオとビデオの高度なコーディングで導入されたソースコーディング標準のコレクションです。 2世代のAVS標準が策定されている。

    • 第1世代のAVSには、「情報技術: オーディオとビデオの高度なコーディング、パート2: ビデオ」 (AVS1) と「情報技術: オーディオとビデオの高度なコーディング、パート16: ラジオテレビビデオ」 (AVS) が含まれます。 AVS + は、H.264またはAVC High Profileと同じ圧縮効率を提供MPEG-4。
    • 第2世代AVS (AVS2) は、UHD (4K以上) およびハイダイナミックレンジ (HDR) ビデオの効率的な圧縮のために設計されています。 AVS2の圧縮効率は、AVS + およびH.264またはMPEG-4 AVCの2倍であり、H.265またはHEVCの圧縮効率を上回る。
  4. その他のシリーズ: VP8、VP9 (Googleのリードの下で開発されています) 、RealVideo (RealNetworksによって導入されています) など。 これらはオンラインビデオではめったに使用されないため、このトピックでは説明しません。

コーデックを選択するときは、モバイルアプリケーションやwebブラウザなどの端末との互換性を考慮する必要があります。 可能な限り、最も一般的で広くサポートされているコーデックを使用します。 ApsaraVideo VODは、H.264またはMPEG-4 AVC (デフォルト) 、H.265またはHEVCのビデオコーデックをサポートしています。 ApsaraVideo VODは、MP3 (デフォルト) 、AAC、VORBIS、およびFLACのオーディオコーデックもサポートしています。

トランスコード

ビデオトランスコーディングとは、異なるネットワーク帯域幅、端末処理能力、およびユーザニーズに適応するために、符号化ビデオストリームを別のビデオストリームに変換するプロセスを指す。 トランスコーディングは、本質的に復号化および符号化のプロセスである。 トランスコーディング前後のストリームは、同じまたは異なるビデオ符号化規格を使用することができる。

コンテナ形式の変換

コンテナ形式変換とは、オーディオまたはビデオファイルをあるコンテナ形式から別のコンテナ形式に、たとえばAVIからMP4に変換するプロセスを指します。 圧縮されたビデオおよびオーディオストリームは、元のコンテナフォーマットのファイルから取得され、次いで、宛先コンテナフォーマットのファイルにパッケージ化される。 このプロセスには符号化も復号も含まれない。 トランスコーディングと比較して、コンテナ形式の変換には次の機能があります。

  • 高速処理。 オーディオファイルとビデオファイルのデコードとエンコードは複雑なプロセスであり、これはトランスコード時間の大部分を占めます。 コンテナフォーマット変換はエンコードまたはデコードを必要としないため、処理時間が短縮されます。
  • オーディオまたはビデオ品質の損失はありません。 デコード (解凍) およびエンコード (圧縮) プロセスがなければ、コンテナフォーマット変換は元のオーディオまたはビデオ品質に影響を与えません。

新しいファイルは、解像度とビットレートの点で元のファイルとほぼ同じです。 したがって、新しいファイルは、再生されるときには元の品質のファイルとも呼ばれます。

ビットレート

ビットレートは、ビデオファイルが単位時間あたりに使用するデータトラフィックを指します。 これは、ビデオエンコーディングにおける画質制御にとって最も重要な項目です。 ビットレートはビット /秒 (bit/s) で測定され、Kbit/sとMbit/sの単位でよく使用されます。 同じ解像度のビデオファイルのビットレートが高いほど、圧縮率が小さくなり、画質が高くなります。 ビットレートが高いほど、単位時間あたりのサンプルレートが高くなり、データストリームの精度が高くなり、処理されたファイルが元のファイルに近くなり、画質が良くなり、ビデオの解像度が高くなり、再生デバイスのデコード能力に対する要件が高くなることに注意することが重要です。

ただし、ビットレートが高いほど、ファイルサイズは大きくなります。 次の式を参照できます。ファイルサイズ=時間 × ビットレート /8。 たとえば、60分の720pオンラインビデオファイルのビットレートが1 Mbit/sの場合、そのサイズは約450 MB (3,600秒 × 1 Mbit/s/8) です。

解像度

解像度とは、ビデオの詳細を区別する機能を指します。 各方向のピクセル数です。 例えば、1,280 × 720は、1,280ピクセルの幅及び720ピクセルの高さを指す。 解像度は、ビデオの画像詳細の細かさを決定する。 より高い解像度のビデオは、より多くのピクセルを含み、より鮮明な画像を有する。

解像度は、ビットレートを決定する主な要因です。 異なる解像度のビデオは異なるビットレートを使用します。 ビデオの解像度が高いほど、必要なビットレートは高くなります。 しかし、これは常にそうであるとは限らない。 各解像度は、ビットレートの適切な範囲に対応する。 いわゆる適切な範囲は、ビットレートがこの範囲の下限を下回る場合、解像度が低く、ビデオ品質が悪いことを意味します。 対照的に、ビットレートがこの範囲の上限よりも高い場合、ネットワークトラフィックとストレージスペースは無駄になりますが、ビデオ品質はほとんど改善されません。

フレームレート

フレームレートは、単位時間当たりのビデオ表示フレームの数、または1秒当たりにリフレッシュされる画像のフレームの数を測定するために使用される。 単位はフレーム毎秒 (FPS) またはHzです。

フレームレートが高いほど、ビデオはより滑らかでリアルになります。 一般に、25〜30 FPSが許容範囲である。 A frame rate at 60 FPS makes the video significantly more immersive and lifelike. しかし、フレームレートが75 FPSを超えると、動きの流動性の向上は目立たなくなる。 ディスプレイのリフレッシュレートよりも高いフレームレートを使用すると、ディスプレイはそのフレームレートではリフレッシュできないため、グラフィックス処理機能の無駄になります。 同じ解像度でより高いフレームレートは、グラフィックスカードからより大きな処理能力を必要とする。

GOP

GOP (Group of Pictures) は、MPEG符号化されたビデオ又はビデオストリームにおける連続画像のグループである。 それはIフレームで始まり、次のIフレームで終わる。 GOPには、次のイメージタイプが含まれます。

  • Iフレーム (イントラ符号化ピクチャ): キーフレーム。 Iフレームは、そのフレームの画像を生成するのに必要な全ての情報を含む。 それは独立してデコードされ、静止画像とみなすことができる。 ビデオシーケンスの最初のフレームは常にIフレームであり、各GOPはIフレームで始まる。
  • P-frame (predictive coded picture): A P-frame must be encoded with reference to the preceding I-frame. Pフレームは、IフレームまたはPフレームであり得る前のフレームに対する動き補償された差分情報を含む。 復号化の間、現在のPフレームによって定義される差分は、最終画像を生成するために、以前にキャッシュされた画像と重ね合わされる。 PフレームはIフレームよりも少ないデータビットを占める。 しかしながら、Pフレームは、前のPおよびI基準フレームに対するそれらの複雑な依存性のために、伝送エラーに敏感である。
  • Bフレーム (双方向予測符号化ピクチャ): Bフレームは、前のフレームおよび後のフレームに対する動き補償された差分情報を含む。 復号化の間、現在のBフレームのデータは、最終画像を生成するために、以前にキャッシュされた画像と復号化された後続の画像の両方と重ね合わされる。 Bフレームは、高い圧縮率を提供するが、高い復号性能を必要とする。

GOP値は、キーフレームの間隔を示します。これは、2つのIDR (Instantaneous Decoding Refresh) フレーム間の距離、またはフレームグループ内の最大フレーム数です。 ビデオの1秒ごとに少なくとも1つのキーフレームが必要です。 より多くのキーフレームを追加すると、ビデオ品質は向上するが、帯域幅消費が増加し、ネットワーク負荷が高くなる。 GOP値 (フレーム数) をフレームレートで割った値が時間間隔である。 たとえば、ApsaraVideo VODのデフォルトのGOP値は250フレームで、フレームレートは25 FPSです。 したがって、時間間隔は10秒です。

GOP値は、ビデオ品質、ファイルサイズ (帯域幅消費を示す) 、およびシーク効果 (ドラッグおよび早送り動作に対する応答速度を示す) の間のバランスを達成するために適切な範囲内になければならない。

  • GOP値を大きくすると、ファイルのサイズが小さくなります。 しかし、GOP値が大きすぎると、GOPの最後のフレームが歪んでしまい、ビデオ品質が低下する。
  • GOP値は、ビデオにおけるシークに対する応答速度を決定する際の重要な要素でもある。 シーク中、プレイヤーは指定された位置の前に最も近いキーフレームを見つける必要があります。 GOP値が大きいほど、指定された位置と最も近いキーフレームとの間の距離が長くなり、より多くの予測フレームを復号する必要がある。 その結果、シークに応答するのに長いバッファリング時間がかかる。
  • PフレームおよびBフレームの符号化は、Iフレームの符号化よりも複雑である。 GOP値が大きいと、PフレームとBフレームが多くなり、符号化効率が低下する。
  • しかしながら、GOP値が小さすぎる場合、画質が低下しないことを保証するために、ビデオのビットレートを増加させなければならない。 このプロセスは、帯域幅消費を増加させる。

IDRフレームアライメント

IDRフレームは、特別なタイプのIフレームである。 通常のIフレームの後のPフレームおよびBフレームは、このIフレームの前の他のIフレームを参照することができる。 しかしながら、IDRフレームの後のフレームは、このIDRフレームの前の他のフレームを参照できない。 符号化および復号化を制御するために、フレームシーケンスの最初のIフレームがIDRフレームとして指定される。

IDRフレームは、参照フレームバッファを直ちにリフレッシュするようにコーデックに伝える。 このように、IDRフレームの前のフレームにおけるエラーは、IDRフレームの後のフレームには伝播されない。 IDRフレームおよびそれ以降のフレームは、新しいシーケンスとして符号化される。 IDRフレームはランダムアクセスにも使用できますが、通常のIフレームはこの機能をサポートしていません。 プレーヤーは、多くの場合、ユーザーがランダムな位置にシーク (またはプログレススライダーをドラッグ) することを許可します。 この場合、指定された位置に近いIDRフレームからプレイする方が便利である。 これは、IDRフレームの後のすべてのフレームがその前の他のIフレームを参照しないので、複雑な逆解析を回避する。

ビデオを異なるビットレートの複数のビデオにトランスコードする場合は、IDRフレーム配置を有効にできます。 このように、全ての出力ビデオのIDRフレームは、時間及びフレームコンテンツに関して正確に整列される。 その後、プレーヤーは明らかな遅れなしに異なるビットレートでビデオをスムーズに切り替えることができます。

プロファイル

プロファイルは、特定のクラスのアプリケーションに焦点を当てた機能のセットを定義します。 H.264には、次の3つのプロファイルが含まれます。

  • ベースラインプロファイル: IフレームとPフレームを使用し、プログレッシブビデオとコンテキスト適応型可変長符号化 (CAVLC) のみをサポートします。 このプロファイルは、低コストのアプリケーション、または追加のデータ損失堅牢性を必要とするアプリケーション、たとえば一部のビデオ通話やモバイルビデオアプリケーションで使用されます。
  • メインプロファイル: Iフレーム、Pフレーム、およびBフレームを使用し、プログレッシブおよびインターレースのビデオをサポートします。 また、CAVLCおよびコンテキスト適応型バイナリ算術コーディング (CABAC) もサポートします。 このプロファイルは、MP4プレーヤー、ポータブルビデオプレーヤー、PSP、および比較的低いデコード能力を持つiPodなどの主流の消費者向け電子製品で使用されています。
  • ハイプロファイル: 8 × 8インター予測、カスタム量子化、ロスレスビデオコーディング、およびより多くのYUVフォーマット (4:4:4など) 、およびメインプロファイルの機能をサポートします。 これは、放送およびディスクストレージのアプリケーション、特に高解像度テレビのアプリケーションで使用されます。 たとえば、Blu-rayディスクのストレージ形式はこのプロファイルを採用しています。

ビットレート

ビットレートは、毎秒送信されるビット数を指す。 単位はビット /秒 (bit/s) である。 ビットレートが高いほど、送信されるデータの量は多くなる。 このビデオフィールドでは、ビットレートはビットレートに相当します。 ビットレートは、符号化された (圧縮された) オーディオまたはビデオデータを表すために必要な1秒当たりのビット数を示す。 ビットは、0または1の値を有する最小の2進単位である。 ビットレートと同様に、ビットレートが高いほど、オーディオまたはビデオの品質は向上しますが、コード化されたファイルは大きくなります。 ビットレートが小さいほど、ファイルサイズは小さくなります。

ビットレート制御方式

ビットレート制御方法は、符号化ストリームのビットレートを制御する方法を指す。 一般的なビットレート制御方法は次のとおりです。

  • 可変ビットレート (VBR): この方法を使用すると、ビットレートは固定されません。 ビデオまたはオーディオファイルを圧縮するとき、ビデオまたはオーディオ圧縮ソフトウェアは、ビデオまたはオーディオデータの複雑さに基づいてビットレートを決定する。 この方法は、品質とファイルサイズの両方を考慮します。

  • 一定ビットレート (CBR): この方法が使用されるとき、ビットレートは、符号化されたストリーム全体にわたって固定される。 CBR圧縮ファイルは、VBR圧縮ファイルやABR圧縮ファイルよりもサイズが大きく、品質の向上はあまりありません。

  • 平均ビットレート (ABR): この方法は、補間パラメータが追加されたVBRの変形である。 これは、CBRの不十分なサイズ品質比とVBRの予測不可能なファイルサイズを取り除くためにLAMEによって作成されます。 所与のファイルサイズにおいて、ABRは、ストリームを50フレームの単位で (毎秒約30フレームで) 部分に分割し、比較的低いビットレートを使用して複雑でないセグメントを符号化し、高いビットレートを使用して複雑な部分を符号化する。 ABRは、VBRとCBRとの間の妥協とみなすことができる。

    ビットレートは特定の時間範囲内で指定された値に達することができますが、一部の部分のピークビットレートは指定されたビットレートを超えることがあります。 平均ビットレートは一定である。 ABRはVBRの修正版です。 平均出力ビットレートが適切な範囲内にあることを保証し、複雑さに基づいてこの範囲内のビデオをコーディングします。 デフォルトでは、Alibaba Cloudはビットレート制御方法としてABRを使用します。

オーディオコーデック

詳細については、前のセクションのコーデックの説明を参照してください。 オーディオコーデックは、非可逆コーデックと可逆コーデックとに分類される。 サンプリング定理に基づいて、オーディオコーデックは、自然信号に無限に近い信号のみを生成することができる。 したがって、すべてのオーディオコーデックは非可逆コーデックです。 コンピュータ分野では、パルス符号変調 (PCM) は、すべてのオーディオコーデックの中で最高の忠実度を達成するため、従来の無損失コーデックである。 MP3やAACなどのインターネット上の一般的なオーディオコーデックは、すべて非可逆コーデックです。

サンプルレート

サンプルレートまたはサンプル周波数は、離散時間信号を形成するために毎秒連続時間信号から抽出されるサンプルの数を定義する。 単位はHzです。 サンプルレートは、デジタル信号に変換されたアナログ信号の単位時間当たりのサンプル数である。 サンプルレートが高いほど、音はよりリアルで自然になります。

ビットレート

詳細については、ビデオのエンコード用語のビットレートの説明を参照してください。

サウンドチャンネル

サウンドチャネルは、サウンドが異なる空間位置で記録または再生されるときに収集または再生される独立したオーディオ信号を指す。 音声チャンネル数とは、録音時の音源数や再生時のスピーカ数のことである。

UTC (ISO 8601標準時間フォーマット)

協定世界時 (UTC) は、世界統一時間、世界標準時、および国際協定時間としても知られています。 英語 (CUT) とフランス語 (TUC) の用語の頭字語は異なります。 頭字語UTCは妥協として使用されます。 UTCは、原子秒に基づく時間計測システムであり、世界時に可能な限り近い。 中華圏は、データ要素と相互変更形式の標準-情報交換-日付と時刻の表現 (ISO 8601:1988またはGB/T 7408-1994) を採用し、UTCを国際調整時間と呼びます。

デフォルトでは、ApsaraVideo VODのAPIリクエストで返されるすべての時間フィールドと時間パラメーターはUTC形式です。 時間フォーマットは、ISO 8601に準拠したYYYY − MM − DDThh:mm:ssZである。 たとえば、2017-01-11T12:00:00Zは、UTC + 8 (中国標準時) で2017年1月11日の20:00:00を示します。 中国標準時とUTCの差は8時間です。 したがって、UTC + 8は中国標準時を示します。