2022年8月18日

動画フォーマットの探求と、Jellyfin

やんごとなき事情により、光学ディスクから動画を取り込む必要が出てきたので、調べながらやってみた。そもそもPCに光学ドライブがついていないので、使っていないマシンからかっぱらってSATA接続するところから始めた。

ちゃんと知らなかったけど、コピーガード機能がついたディスクからデータをリッピング（取り込み）するのは、私的であっても違法となる。

今回は、コピーガードがついていないディスクからの取り込みを行う。ディスクから動画データを取り込んで、PCやiPhoneで見られるようにエンコードし、家庭内LANで視聴可能にするのが目的だ。

リッピングは、Windowsマシンで行う。手元にSATA接続のドライブしか無かったのと、 NVIDIA GPU が刺さっているからである。 GPUを使うことで、エンコード・デコードを効率化できる。あらかじめ GeForceドライバを最新にしておく。（2020年の古いドライバで作業していたら色々とエラーが出た）

リッピングのためのソフトは、探せばいくつも見つけることができるが・・・見るからに危険なサイトが多いので注意が必要となる。今回は HandBrakeを使う。HandBrakeは、単純に、暗号化されていない動画をほかの形式にコンバートするためのツール。

https://handbrake.fr/

chocoでもでインストールできる。 https://community.chocolatey.org/packages/handbrake

choco install handbrake

続いて、データを取り込む。取り込む際にフォーマットを考えることになる。動画ファイルは、単なる映像で構成されているわけではなく、コンテナ、ビデオ、オーディオ、あと字幕で構成されている。 HandBrakeでは以下のコンテナが選べる。

MP4
- 昔からあるので対応環境が多い
- 字幕を使えない
MKV
- いろいろなコーデックを格納できる
- MP4よりも対応環境が少ない
- 字幕が使える
WebM
- パテントフリーな動画・音声コーデックを使う
- iOS標準では再生できない。

今回は、字幕つきBlu-Rayから取り込むため、MKVを使うことにした。動画エンコードのフォーマットを、「H.264 (x264)」の代わりに 「H.264 (Nvidia NVEnc)」にする ことでGPUエンコードが有効になる。わたしの環境では、ふつうのエンコードよりも3倍速くらいになった。

こうしてできたMKVファイルをてきとうなNASに配置する。 iPhoneやiPadからは「VLC Playerアプリ」を使って再生する。このアプリを使うと、デバイスが対応していないフォーマットであってもだいたい再生できる。また、データを端末にフルダウンロードせずとも再生できる。

ここまでで、動画の取り込みとネットワーク越しの再生は担保できたが、一歩進んで Jellyfin を試してみることにする。

https://jellyfin.org/

Jellyfinは、オープンソースのメディアライブラリ。例えるなら、AppleTVやAndroidTVや、PrimeVideoっぽい感じのライブラリを構築できる。完全にLANで完結させることが可能で、外部への依存はほとんど無い。望むなら、外部のデーターベースサービスで音楽や映画などの情報を検索して紐づけることができる。

サーバはC#で書かれているが、C# = Windowsというのはもはや古い常識で、クロスプラットフォームに対応している。Windows、Mac、Linuxで動かすことができるし、Dockerイメージも配布されている。

フロントエンドは、Web UI がある。ネイティブ・アプリは試していない。わたしは基本的に Web UI での再生を考えている。 iOS向けにもアプリがあるが、これは Expo で作られたガワ・ネイティブである。Swift版は開発中とのことで待ち遠しく思う。

データソースも柔軟で、ローカルディスクでも、NASでも大丈夫。また、データソースとデータベースが分離されている点も好感がもてる。フォルダ構造などは考えずとにかくファイルを置いておけば、あとはスキャンして自前のデータベースが構築される。一応、フォルダ構造やファイル名の推奨ルールがあり、外部データベースをスクレイピングしたり、グルーピングするのに役立てられる。データベースには内部的にsqliteを使っている。それから、アートワークなどを格納するために余裕をもったディスクスペースを必要とする。

まずは、いつも使っている Raspberry Pi に docker-compose で立ててみる。

Docker hub の linuxserver/jellyfin には、arm64イメージがあるのでこれを使う。

難しいことは一切なく、すんなり立ち上がる。しかし、この方法では、DLNAサーバが使えないことに気づく。Dockerコンテナは独自のネットワークに接続していて、ポートマッピングやIPマスカレードによって外部と通信しているからだ。家庭内LANにいるDLNAクライアントからは見えない。

そこで、ほとんど同じだが、macvlanを使ってコンテナを家庭内LANに参加させる。目論見通り、DLNAサーバとして機能させることができた。

しかし、Web UI での動画の再生が遅いことに気づく。詰まる。とくに、「字幕」をONにすると、視聴できないレベルになる。回線の問題とは思えないが・・・

そこで、トランスパイルに気づく。

Jellyfinでは、ブラウザで動画を配信するさいに、クライアントが対応するフォーマットに自動的にトランスパイル（変換）しながら配信する。

どんなときにトランスパイルが発生するのかは、公式ドキュメントに書かれている。

Codec Support | Jellyfin

ビデオコーデックのトランスパイルがとくに高負荷なので、避けるべき。逆に、コンテナのトランスパイルは、小負荷である。

今回は「PGS」という画像形式による字幕を使っている。なお、字幕にも色々あって、テキスト形式のものもあるようだ。どうやら、再生時にPGS字幕をONにすると、メイン動画と字幕を別々に配信するわけではなく、 1つの動画として結合して配信してくれているのだ。これには、デコード・合成・再度エンコードという処理が必要になる。

このトランスパイルによって、VLC Playerを使わずとも、ブラウザだけで、あらゆる環境で視聴できるってわけ。ブラウザごとに対応コーデックがバラバラなのにもかかわらず。

そもそもMKVコンテナを使わずにMP4に字幕を焼き付けてしまえば、こんな苦労は無いのだが、今回は、MKVとPGSSUB字幕を使うことにこだわりたい。

そこで、HWA（ハードウェア・アクセラレーション）を使う。

Hardware Acceleration | Jellyfin

一般に、Docker越しだとHWAが難しかったり、そもそも特別なDockerデーモンが必要になる場合もあるので、面倒を避ける。Dockerをやめて、aptでインストールしなおす。

Raspberry Pi 上の Ubuntuで直に動かし、HWA（ドキュメントに従い「V4L2」を使う）を有効にしてみる。しかし、今度は字幕ONでの再生が全くできなくなってしまった。

これについては、GitHub issue も上がっているようで、読んでみる。

Hardware acceleration with PGS subtitles hangs indefinitely - GitHub

どうやら、Raspberry Pi の GPUや、その上のffmpegでは、字幕を乗せるさいに使うオーバーレイ系のAPIが動かないらしい。

なるほど、うーん・・・ Raspberry Pi 上で Jellyfin を動かす試みは、中断する。

ではどうするか。先ほどリッピングに利用したWindowsマシンで Jellyfin を動かすことにする。 Windows向けには、msiインストーラーが配布されているので、かんたんにインストールできる。まずはHWA無しで動画再生・字幕動画再生を試すが、やはり字幕のほうは厳しい。たまに再生が詰まる。次に、HWAを有効化する。すると、かなり余裕を持ってトランスパイルできているようだった。

このスキームを使い続けるかどうかはわからないが、これで、 iOS Safari からでも字幕動画が再生できるようになったわけだ。

めでたしめでたし！

今回の探求では、動画フォーマットや動画配信について知ることができて収穫だった。わたしは以前から（音声や写真ほどは）動画に興味が無かったので、まったく触ってこなかった分野だ。

アーキテクチャとしての大きなポイントは、変換をいつ・だれが行うか、だ。

動画配信には、変換処理が（ほとんど）不可欠だ。変換には大きなマシンパワーを使う。たとえば、変換処理を、アップロード前に配信者が済ませておく。すると、再生端末はコーデックに依存してしまうが、全体で使う計算パワーとしてはもっとも少なくて済む。変換処理を、アップロード時にシステムで自動的に行うようにすれば、少し人間に優しくなる。小さいMP4を配信するならこれで十分なのだろう。

変換をせずに配信すると、閲覧者側で、VLC Player などの特別なアプリを用意する必要があるし、過剰な配信（不要なトラック、過剰な画質など）による通信帯域も気になってくる。

それから、Jellyfinのような、オンデマンドに変換しながら配信するタイプが考えられる。これは、最適なかたちで配信できるが、変換のための計算コストを配信者が支払うことになる。大規模になればなるほど、キャッシュが肝心となる。動画のキャッシュを保存するためのストレージ・コストも配信者側が支払うことになる。

JellyfinはLANで動かすことが前提でスケールアウトはできないが、(LinuxならSSHを通じて別マシンのffmpegを使えると書いてあった気がするのでhaproxyなどでさばけるのだろうか？)、公開サービスにおいては変換部分のスケーリングが重要になる。「AWS Elemental MediaConvert」などといったマネージドサービスを使うと楽にできる。

計算コストだけではなく、それぞれUI/UX特性も異なる。

それでは