Dużo pracuję z video i zawsze na pierwszym miejscu jest u mnie jakość materiału. Najchętniej pracowałbym na kompresji bezstratnej (lossless), ale filmy w 4K zajmują bardzo dużo miejsca, a i obróbka przy olbrzymich plikach jest bardziej uciążliwa… Istnieją mimo to kompromisy na które można się zgodzić, czyli kompresja stratna (lossy). Sprawdźmy kilka popularnych kodeków i jakość video.
Jakość video ma znaczenie
Nie jestem profesjonalnym operatorem kamery, większość rejestruję telefonem, stąd kodeki których używam to w większości x264, x265 oraz czasem mpeg4. Staram się zawsze nagrywać w maksymalnej rozdzielczości jaką daje telefon i maksymalnym FPS (klatki na sekundę) – co zwykle daje 4K w 60fps. Jest to przede wszystkim płynność video, ale także pole do dodatkowej stabilizacji obrazu przy użyciu oprogramowania, które odpowiednio kadrując i zniekształcając obraz daje poczucie stabilnego ujęcia kosztem zmniejszenia rozdzielczości materiału – to jest dla mnie zupełnie akceptowalne. Nagrywanie z „ręki” telefonem potrafi nieźle drgać.
O ile do obróbki video wykorzystuję Davinci Resolve oraz Adobe Premiere Essentials, to pliki wynikowe staram się renderować z maksymalnym bitrate aby nie tracić na jakości. Ostateczną kompresję robię przez ffmpeg i na nim się skupię w tym wpisie. Używam wersji ffmpeg-20200523-26b4509
Kodeki które porównam to x264, x265, VP9 oraz AV1. O ile trzy pierwsze są bardzo popularne, to AV1 dopiero zaczyna podbój rynku. Jest to nowe podejście i nowe algorytmy, które na mniejszym bitrate potrafią uzyskać lepszą jakość niż poprzednicy, co w rezultacie daje mniejsze pliki przy tej samej jakości. Olbrzymim minusem AV1 jest czas kompresji – około 500-700x dłuższy niż x264… Ale świat idzie do przodu, algorytm jest optymalizowany i lada moment trafi jako nowy firmware do naszych telewizorów i wszystko będzie grało.
Czym jest kompresja stratna i bezstratna?
Kompresja stratna to taka, w której chcąc zredukować wielkość pliku, godzimy się na utratę jakości – np. szczegółów, odwzorowania kolorów czy płynności ruchu. Nowoczesne kodeki pozwalają na płynne strojenie tych parametrów, oraz wykorzystują algorytmy dostosowane do odbiorcy czyli ludzkiego oka – które nie zawsze jest w stanie wychwycić te małe różnice, a dzięki temu plik jest znacznie mniejszy.
Kompresja bezstratna charakteryzuje się przenoszeniem obrazu 1:1 względem źródła, zatem plik wyjściowy jest dokładnym odwzorowaniem pliku wejściowego, ale zwykle bardzo dużym. Takie pliki są bardzo dobrym jakościowo materiałem do montażu i obróbki, ale nie nadają się do publikowania w Internecie, ze względu na swój rozmiar.
Po co mi PSNR i SSIM?
PSNR i SSIM to dwa popularne „mierniki” jakości względem materiału źródłowego. Aby sprawdzić jakość kompresji używając wybranego kodeka i bitrate, musimy plik wynikowy porównać z plikiem źródłowym. Dwa identyczne pliki powinny mieć SSIM równy 1.0 oraz PSNR dążący do nieskończoności (infinite). Taki wynik dają kodeki w których wykorzystamy kompresję bezstratną (lossless)
SSIM Y:1.000000 (inf) U:1.000000 (inf) V:1.000000 (inf) All:1.000000 (inf) PSNR y:inf u:inf v:inf average:inf min:inf max:inf
Wykorzystując kompresję stratną, zgadzamy się na utratę pewnych szczegółów obrazu, ale uzyskujemy mniejszy plik wynikowy.
SSIM Y:0.998753 (29.042157) U:0.999491 (32.934697) V:0.999728 (35.656912) All:0.999039 (30.171505) PSNR y:56.750038 u:62.900075 v:65.809073 average:58.129866 min:56.936481 max:inf
PSNR określa się jako Szczytowy stosunek sygnału do szumu, gdzie sygnałem są nieskompresowane dane źródłowe, a szumem – artefakty (zniekształcenia) spowodowane zastosowaniem kompresji stratnej.
Parametr ten doskonale sprawdza się jako liczbowy parametr jakości kompresji, jednak nie bierze pod uwagę percepcji ludzkiego oka, co z kolei dokładniej odwzorowuje SSIM.
SSIM to miara wskaźnika podobieństwa strukturalnego i jest metodą przewidywania postrzeganej jakości telewizji cyfrowej i zdjęć kinowych, a także innych rodzajów obrazów cyfrowych i filmów.
Chcąc wykorzystać te dwa parametry musimy zrozumieć jakie wartości tych parametrów charakteryzują jakość kompresowanego video. PSNR dąży do nieskończoności – czyli im jest wyższy tym lepiej. Standardowo waha się między 30 a 50. Przy kompresji bezstratnej określany jako „infinity” – co oznacza że pliki źródłowy i wynikowe są identyczne. SSIM z kolei ma zakres od 0.0 do 1.0 i opisuje podobieństwo wizualne. Przy wartości 1.0 plik źródłowy oraz plik wyjściowy są identyczne. Co za tym idzie, mniejsza niż 1.0 wartość SSIM oznacza stratę jakości.
Wielkość pliku przy kompresji bezstratnej (lossless)
Plik źródłowy 1080p w 30fps kompresja h264 – skopiowane pierwsze 800 klatek z pominięciem audio, bo tym się nie zajmujemy, rozdzielczość do 720p i lossless x265 jako plik wzorca.
$ ffmpeg -i "source.mp4" -vframes 800 -vf scale=-1:720 -c:v libx265 -x265-params lossless=1 -an source.mkv Output #0, matroska, to 'source.mkv': Metadata: major_brand : isom minor_version : 1 compatible_brands: isomavc1 composer : Sacha Goedegebure title : Big Buck Bunny, Sunflower version artist : Blender Foundation 2008, Janus Bager Kristensen 2013 comment : Creative Commons Attribution 3.0 - http://bbb3d.renderfarming.net genre : Animation encoder : Lavf58.43.100 Stream #0:0(und): Video: hevc (libx265), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 30 fps, 1k tbn, 30 tbc (default)
Następnie plik ten został skompresowany przy wykorzystaniu x264, x265, VP9 oraz AV1 z opcją kompresji bezstratej, komendy poniżej:
$ ffmpeg -i source.mkv -c:v libx264 -qp 0 x264_lossless.mkv $ ffmpeg -i source.mkv -c:v libx265 -x265-params lossless=1 x265_lossless.mkv $ ffmpeg -i source.mkv -c:v libvpx-vp9 -b:v 0 -lossless 1 VP9_lossless.mkv
Porównujemy x264 względem źródła, mamy SSIM = 1.0 oraz PSNR = inf. czyli kompresja była bezstratna.
$ ffmpeg -i x264_lossless.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:1.000000 (inf) U:1.000000 (inf) V:1.000000 (inf) All:1.000000 (inf) PSNR y:inf u:inf v:inf average:inf min:inf max:inf
Następnie kompresujemy z użyciem x265 względem źródła, mamy SSIM = 1.0 oraz PSNR = inf. czyli kompresja była bezstratna.
$ ffmpeg -i x265_lossless.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:1.000000 (inf) U:1.000000 (inf) V:1.000000 (inf) All:1.000000 (inf) PSNR y:inf u:inf v:inf average:inf min:inf max:inf
Na koniec kompresujemy VP9 względem źródła, mamy SSIM = 1.0 oraz PSNR = inf. czyli kompresja była bezstratna.
$ ffmpeg -i VP9_lossless.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:1.000000 (inf) U:1.000000 (inf) V:1.000000 (inf) All:1.000000 (inf) PSNR y:inf u:inf v:inf average:inf min:inf max:inf
Na sam koniec zostaje nam AV1 względem źródła, mamy SSIM = 1.0 oraz PSNR = inf. czyli kompresja była bezstratna.
Podsumujmy kompresję bezstratną (lossless)
Kodek | Objętość |
źródło (x265) | 108,683,556 bajtów |
x264 | 117,931,148 bajtów |
x265 | 108,683,556 bajtów |
VP9 | 171,929,297 bajtów |
AV1 | 112,405,222 bajtów |
Przy kompresji bezstratnej różnice w wielkości plików mają znaczenie, gdyż pliki wyjściowe są dużo większe niż przy kompresji stratnej. W takim wypadku 10-20% różnicy może oznaczać kilka-kilkadziesiąt gigabajtów więcej na dysku.
Jakość video przy kompresji stratnej (lossy)
Ponownie ten sam plik źródłowy 1080p w 30fps kompresja h264. Po pierwsze skopiowane 800 klatek z pominięciem audio. Tym się nie zajmujemy. Po drugie rozdzielczość do 720p i lossless x265 jako plik wzorca.
Tym razem celujemy w bardzo zbliżone wartości PSNR oraz SSIM dla wszystkich plików wynikowych, próbując dostroić parametry kompresji. Dzięki temu będziemy wiedzieć że pliki wyjściowe mają bardzo zbliżoną do siebie jakość i porównamy stopień kompresji czyli wielkość pliku wynikowego.
W pierwszej kolejności idzie VP9, ze względu na brak możliwości ustawiania parametru -crf jako ułamek z częścią po przecinku. Wynikiem będzie nasza jakość video do której dążymy, pozostałe kodeki będziemy doprowadzać do jakości kodeka VP9. VP9 posiada najlepszą jakość przy dwu-przebiegowej kompresji, gdzie pozostałe kodeki mają minimalny i wręcz pomijalny uzysk z dwóch przebiegów. Jako parametry w które celujemy to PSNR average:45.321 oraz SSIM All:0.992. Wizualnie utraciliśmy 0.8% szczegółów o czym mówi SSIM.
$ ffmpeg -i source.mkv -y -c:v libvpx-vp9 -pass 1 -crf 32 -b:v 0 -tune psnr -f webm VP9_psnr_pass1.mkv $ ffmpeg -i source.mkv -c:v libvpx-vp9 -pass 2 -crf 32 -b:v 0 -tune psnr VP9_psnr_pass2.mkv $ ffmpeg -i VP9_psnr_pass2.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:0.992829 (21.444045) U:0.991546 (20.729279) V:0.991933 (20.932731) All:0.992466 (21.229502) PSNR y:44.354215 u:47.979801 v:48.693489 average:45.321377 min:41.582973 max:inf
Jako pierwszy dostroiłem x264 uzyskując PSNR: 45.358 i SSIM:0.9916
$ ffmpeg -i source.mkv -c:v libx264 -tune psnr -crf 21.6 x264_psnr.mkv $ ffmpeg -i x264_psnr.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:0.993020 (21.561526) U:0.988144 (19.260510) V:0.989391 (19.743134) All:0.991602 (20.758494) PSNR y:44.739910 u:46.548467 v:47.379091 average:45.358051 min:39.754114 max:inf
Następnie zająłem się x265 i otrzymałem wynik PSNR: 45.347 i SSIM:0.9919
$ ffmpeg -i source.mkv -c:v libx265 -tune psnr -crf 20.7 x265_psnr.mkv $ ffmpeg -i x265_psnr.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:0.992588 (21.300356) U:0.990183 (20.080185) V:0.990867 (20.393656) All:0.991900 (20.915107) PSNR y:44.520794 u:47.337848 v:48.110384 average:45.347215 min:40.447379 max:inf
Na koniec AV1 gdzie PSNR:45.361 i SSIM:0.9920
$ ffmpeg -i source.mkv -c:v libaom-av1 -row-mt 1 -tiles 8x4 -crf 25 -strict experimental AV1_psnr.mkv $ ffmpeg.exe -i AV1_psnr.mkv -i source.mkv -lavfi "ssim;[0:v][1:v]psnr" -f null - SSIM Y:0.996144 (24.138723) U:0.994546 (22.632922) V:0.994623 (22.694995) All:0.992024 (23.589543) PSNR y:45.340784 u:45.142517 v:45.210798 average:45.361 min:43.819632 max:inf
Podsumujmy jakość video przy kompresji stratnej
Kodek | PSNR/SSIM | Objętość | CRF |
źródło (x265) | PSNR:inf. SSIM: 1.0 |
108,683,556 bajtów | 0 (lossless) |
x264 | PSNR:45.358 SSIM:0.9916 |
6,628,297 bajtów | 21.6 |
x265 | PSNR:45.347 SSIM:0.9919 |
5,518,725 bajtów | 20.7 |
VP9 | PSNR:45.321 SSIM:0.9924 |
4,285,884 bajtów | 32.0 |
AV1 | PSNR:45.361 SSIM:0.9920 |
3,321,936 bajtów | 25 |
Łatwo zauważyć że pomiędzy x264 a AV1 jest różnica wielkości pliku na poziomie 50% przy zachowaniu bardzo zbliżonej jakości. Jest to fantastyczny wynik, gdyby nie to, że kodowanie x264 czy x265 liczyłem w minutach, a dla tego samego materiału w AV1 były to dosłownie godziny.