11 月 | 2017 | AlphonseTai's Blog

您当前位置: 首页 » 11 月 2017

按日期归档: 11 月 2017

【h264、baseline、flv】使用baseline做双向强交互直播不利的几点因素

再说baseline做强交互不利因素之前，先说说现在直播的场景情况。

场景如上图，推流段不是移动平台，就是PC机。当然最近几年也出现专门用来推流的定制盒子，本质不是一个嵌入式windows，就是一个android设备（android设备较多）。

而对于PC机作为推流端来说其实问题并不大，只要在保证带宽足够理想的情况下，采用264的任何一种profile都能尽可能的做到最大延时接近编码器固有延时的效果。同样对于使用何种容器来说问题都不大。

但对于移动设备来说，需要匹配的情景就很多了，主要是由于移动设备的电池续航能力、操作系统小类别太多、整体性能表现。在使用264编解码时，一般尽量采用硬编解码，对于实在没有办法的情况下才使用软编解码。就仅仅一个硬编解码上就存在诸多差异，例如有些profile硬件不支持，或者rom上存在一些问题导致本该支持的profile，支持的不好或者根本不支持。

除了上述提到的问题以外，其实还有一个隐形问题，那就是用户使用习惯问题。现在的用户越来越偏向于使用web方式展现的产品，一方面对于开发者来说，界面改动较为简单灵活，另一方面对于用户来说，只需要打开浏览器即可，简化使用步骤。

然而上述提到的这些问题，就造就了可能大家会想到flash、h5和native应用，对于native应用来说还好，开发起来虽然周期长，但可塑性比较强。对于flash和h5来说可选择余地就非常小了。

暂时不说flash和h5本身在做双向强交互直播是否可行，先说一说两者采用的协议类型。对于flash来说：

通讯协议为rtmp系列协议（包括rtmpt等），协议本身并不是太复杂，但涉及当初并不是用来做双向强交互的直播协议，因此协议本身就没有在双向强交互上做太多的考虑。

由于协议本身所承载的流媒体容器格式为flv或f4v，现在大部分直播平台基本采用的是flv作为容器，同时flv也是一种较为简单易用的容器

但由于flv容器格式的限制，在adobe官方手册中就已经说明，flv容器支持的264的profile范围中，目前仅对baseline、extended、main、high、high10、high4:2:2、high4:4:4，在经过简单测试之后，如果不考虑flash端推流的情况下，用户电脑（移动端一般用h5，不用flash）性能具备一定保证的情况下，再根据官方手册并测试(as3手册)，没有实际去测试过high10，不过脑补得知high10也是可以的，但延时太大，也有可能会引起其他flash异常。因此往往最佳的选择就在baseline、main、high中选择，因为他们的颜色编码是8bit的。从解码效率和广泛性来说，这三种都可以。

但由于是双向直播，因此，在这时就需要考虑编解码器的时延问题。这时，大家一贯的做法就是关闭B帧编码，这样即可极大的提高编解码延时。当关闭了B帧编码之后，剩下几种profile互相比拼的就是在给定的一个平均分辨率、gop的情况下，编解码固有时延和数据码率，以及支持的广泛性。实测之后发现high其实在不同浏览器的flash上表现存在一定差异，主要情形为编解码速度、性能开销等等。因此在flash上使用high这种方式时，还需要综合考虑。

接下来说一说h5方式的直播：

h5方式的直播一般是通过websocket进行通讯，协议是hls，容器格式为ts、ps。然而我对hls和ts、ps都不是很了解。

h5支持还有待进一步推广，目前在较新的chrome系浏览器和较新的firefox浏览器上均支持较好。IE系暂时较弱（我把edge理解成IE系）。

就目前来说，从开发手机端开发难度，和各手机厂商的支持力度上，无论是webview app还是native app来说，hls+ps/ts也是较优选择。

通过看了苹果官方的FAQ得知，hls协议似乎仅仅支持baseline、main、high三种，不清楚是由于ts、ps容器特性导致的，还是hls协议特点。因此在决定使用哪一种profile时，又回到了和flash一样的情况下。

通过以上可以得知，实际上在使用x264编码时，最终在profile的选择上基本就限制在了baseline、main、high三种。从算法复杂度上来上讲，baseline是最为简单，而high是较为最为复杂（主要是预测模型比前两者多不少）。

不过在实际工程应用中，我们还是做了一个比较脑残又没有办法的决定，那就是使用baseline。原因有二：

我们使用的编码库是openh264，早期版本的openh264宏块分割方式较小，也仅仅支持baseline，对main也只是仅限于试验阶段。
在同样的profile级别下，参数大致相同的情况下，openh264的编码时延比x264的utral模式下略高，但码率略低（未做定量测试，简单定性测试得到的结论）。编码完的数据解码出来的视觉感受差别不大，反正都是渣画质。

考虑到使用场景和当时网络的大环境，确实选择openh264，即是无奈的选择，也是一个极其脑残的选择。说无奈主要是现实，说脑残是因为压根就没有做过定性分析。。。。。。

然后接下来就开始“数落数落”baseline不适合做双向强交互直播的原因。在看x264的代码时，偶然对编码中的预测做了少许的了解。

—- 我是装逼的分割线 1号 —-

传统上对一副图像的处理，一般的理论是基于“分割”，由于图像一般情况下具有前景和后景之分，也就是说，前景和背景之间存在着大量的局部图像细节，对于图像压缩中的思路往往是，尽量将相似的区域用差别不大的统一一个区域去表达，对于差异较大的区域，尽量在用较多的数据量去存储以此保留图像的局部细节。

那么就会存在如何分割图像的问题。如果是一副简单单值图，例如大学时代我做的非矢量图压缩（理论基础差不多），那么只需要根据图像分辨率，做相应的最佳分割快大小计算，并做简单切割即可。将区域内的有色的点和无色的点进行记录，并按做纵向或横向切割成色带，记录色带中有色点或者无色点的坐标值即可。整个思路转换成代码思维，类似于多级联映射表。当然这个做法的关键还在于公式如何设计，即如何动态计算切割区域的大小。由于是做印章方面，所以图像不会太大，因此公式也非常简单。

最终压缩可以理解成单值图的无损压缩，实测试之后，和转换成矢量图之后的文件大小相比，应该两者都会比现在主流的大部分图像编码小非常多。

接着通过类似7z、rar工具里面的二进制压缩算法进行再次压缩，文件最大还能缩小60%左右。一个500k的位图最终生成文件在3k左右。

—- 我是装逼的分割线 2号 —-

由于有上面的实践基础，因此在理解264的压缩时，我也能够理解到“分割”时的重要性。

首先，在baseline模式下，x264的预测模型相对于其他high来说，非常简单。这样的情况就决定了，在局部的细节切块相比high来说有着很多不足，对二进制数据进行压缩前就已经输在起跑线了。即细节丢失比high多。

其次在编码算法上（或者说压缩算法上），baseline仅仅使用cavlc，而对其他两者来说他们既可以使用cavlc也可以使用cabac。没有做过定性或者定考量分析，但通过网上资料获知，cavlc的效率似乎没有cabac高，具体在哪些指标有所体现目前暂时并不清楚。

因此，可以得知。baseline除了在实时性上满足了双向强交互直播对时间的要求，对于相同质量下的压缩比并不是很好。但又由于baseline相对其他profile的简单特点，其实广泛性还是比较不错的。

手里有台android 2.3时代的三星手机，对baseline的视频进行解码，手机基本可以应付（不清楚是硬解还是软解，因为当时的arm好像还有没有对264硬解做太多优化），但相同视频长度的main和high的话，那就有点头疼了。看来baseline对老旧手机还是比较“良好”的。

2017-11-22 | admin | matlab, 数据结构 & 算法, 音视频_图像相关, 音视频编解码

【h264、baseline、flv】使用baseline做双向强交互直播不利的几点因素已关闭评论

【x264、宏块、邻居】x264中对宏块预测方向与邻居类型的定义

在x264中，由于单一宏块预测方向与264规范定义实际上是一直的，即预测方向只有：左(left)、上(top)、左上(left-top)、右上(right-top)。

没有其他的另外四个方向，估计可能是zig-zag的数据排列有关，或只是由于对称关系，不需要做重复预测。

有上述4中预测方向，x264中定义了几种邻居关系（下面拿I帧4×4的宏块距离说明）：

垂直方向，即I_PRED_4x4_V、I_PRED_4x4_DC_TOP，实际上是向上方向预测（top）
水平方向，即I_PRED_4x4_H、I_PRED_4x4_HU、I_PRED_4x4_DC_LEFT，实际上是向左方向预测（left）
左边和向上方向，即I_PRED_4x4_DC
向上旋转到右上方向，即I_PRED_4x4_DDL、I_PRED_4x4_VL
左边旋转到向上方向，即I_PRED_4x4_DDR、I_PRED_4x4_VR、I_PRED_4x4_HD
左边旋转到向上方向，即I_PRED_4x4_VL
I_PRED_4x4_DC_128代表自身？

2017-11-21 | admin | 数据结构 & 算法, 音视频_图像相关, 音视频编解码

【x264、宏块、邻居】x264中对宏块预测方向与邻居类型的定义已关闭评论

【x264、图像量化】像素和亚像素

在看x264代码的时候，总是会看到sad、satd、subpixel。

至于sub pixel这个单词还算比较直观，子像素。当时脑补中的理解是，相邻像素按照不同权重计算出来的一种抽象像素，类似插值像素一样。

后来简单查了一下，才知道这玩意是亚像素。

即像素是感光器件上的实际一个像素点，对于亚像素就是感光器件上像素之间的抽象点。网上说是为了提高器件分辨率的一种抽象，但具体上我也没有实际有多少理解。

2017-11-21 | admin | 未分类

【x264、图像量化】像素和亚像素已关闭评论

【x264、视频、编码、宏块】编码成不同帧时，宏块参数的变化情况

出于好奇最近在看x264的源代码。

对于不管是263、264还265编码来说，图像的压缩大题思路实际上是没有太大变化的。

对图像的压缩和编码，分为相关和非相关部分。又由于263、264、265并没有定义一定是无损压缩，所以在压缩和编码上与音频的编码和压缩也有着相似的处理方式；即，按照人的视觉特性进行编码（人眼分辨画面细节的能力是有限的）。

相关性压缩（和编码）又分为帧内相关和帧间相关，即编码出来的I帧就是我们所说帧内相关，B、P帧则是帧间相关。

对于非相关编码部分，大部分都集中在图像的前期处理上，例如归一化、白平衡、色度调节等。步骤大致如下：

在图像预处理完成后（归一化、降噪等），接下来就是x264较多需要做的事情图像编码与压缩（虽然x264自身也会做一些降噪、再降噪、色度调节等）。
先说编码部分，x264里面先将一副raw数据（可能是yuv420，可能是yv12等等），进行切块（即宏块分割，图像简单预测）。
将分割好的图像在做块内再分割（细节预测，找出图像细节部分，对细节部分在切割，变成小块）
接着又对每一个块做相邻之间的差异化计算（其实就是求出差异），这个过程是最复杂的一个。

下面是对于不同类型帧切块分类的说明其他具体的解释会在后续说：

其中对于不同类型的输出帧，宏块的大小如下：

I帧：

16*16、8*8、4*4

P帧：

L0、8*8、SKIP

B帧：

DIRECT、L0L0、L0L1、L0BI、L1L0、L1L1、L1BI、BIL0、BIL1、BIBI、8*8、SKIP

2017-11-20 | admin | 音视频_图像相关, 音视频编解码

【x264、视频、编码、宏块】编码成不同帧时，宏块参数的变化情况已关闭评论

【webrtc、ios sdk 11、 xcode9】webrtc在xcode 9下的uuid_t编译错误

最近osx环境无意间升级了所有的包，并把xcode升级到了9。按部就班的继续编译之前可以正常编译的webrtc，后来不料，除了这么一个错误：

error: nullability specifier ‘_Nullable’ cannot be applied to non-pointer type ‘uuid_t’ (aka ‘unsigned char [16]’)

东查西查。最后就查到了之前的猜测，这里有解释：

https://forums.xamarin.com/discussion/103773/will-there-be-support-for-ios-11-sdk

因为xcode自带的是ios sdk 11的。就目前来说，这一点比较坑人，因为ios sdk 11的库和ios sdk 10的库在部分函数上的定义上有所区别。

而webrtc和相应的depot_tools也是今年年初的，因此使用的第三方clang编译器也相对xcode 9的步调来说老了一些。

为了不想增加麻烦，也就不打算用gclient了，因为当时不是我去拿的webrtc代码，也不知道会不会有坑。就果断把xcode降级为xcode 8。

xcode 8的下载地址：

https://developer.apple.com/download/more/

降级的方法：

http://osxdaily.com/2012/02/20/uninstall-xcode/

看来用第三方编译器也是让人比较头疼的一件事情。有时候ios上遇到的坑不比android少。。。

2017-11-01 | admin | [奇葩类]求上进系列, iOS, 移动开发, 编码技巧, 音视频_图像相关

【webrtc、ios sdk 11、 xcode9】webrtc在xcode 9下的uuid_t编译错误已关闭评论

2017 年 11 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

AlphonseTai's Blog

thinking~

【h264、baseline、flv】使用baseline做双向强交互直播不利的几点因素

【x264、宏块、邻居】x264中对宏块预测方向与邻居类型的定义

【x264、图像量化】像素和亚像素

【x264、视频、编码、宏块】编码成不同帧时，宏块参数的变化情况

【webrtc、ios sdk 11、 xcode9】webrtc在xcode 9下的uuid_t编译错误

标签

分类