直播连麦、智能音箱、一键求救……实时互动技术应用全面爆发!

更新时间:2018-09-11 17:54:00 点击次数:1526次

今时今日,当我们使用着微信的音视频通话功能,在吃鸡、狼人杀剧本杀里语音对话、直播答题组队,以及在各类在线教育的 App 网站与老师一对一或一对多地课堂互动,并习以为常之时,已经很难记起曾经那个普遍使用着 2G 把上网叫作「网上冲浪」的年代里我们都是怎么生活学习与工作的,那时候,上网的成本甚高,通话的质量却低得今天回想起来都不敢置信。

尽管这样的景象才过去十年有余,却如隔了半个世纪。

而如今,语音聊天、视频社交,通过网络实时地与朋友家人乃至世界各地的人们互动都已经成为了我们的日常工作生活不可或缺的一部分,一如西北工业大学教授陈景东在 RTC 2018 实时互联网大会的主题演讲中所分享的,我们不仅实现了“通信+交互+控制+智能”,更有 Handsfree 和远场交互。从前单通道的声信号获取已经发展至今天的高保真、多方及具有沉浸感的临境体验。这背后的一切均离不开 RTC 实时通信技术,而其所带来的实时互动的能力,深入了从泛娱乐、教育、远程医疗到政务、公安等各行各业,正如声网 Agora 创始人 & CEO 赵斌在 RTC 2018 实时互联网大会上所言 —— “正在一点一滴地在线上创造一个新世界”。

640?wx_fmt=jpeg

声网 Agora 创始人 & CEO 赵斌


640?wx_fmt=png

实时互动技术应用已全面爆发!


在不久前,笔者与大家曾分享过从游戏、直播到社交、教育这些社交需求极强的应用,以及微信开放了实时音视频能力后所带来的在小程序上的实时互动探索。而在正在举行的 RTC 2018 实时互联网大会上,笔者则看到了实时互动更加丰富的技术应用。

在大会现场,声网 Agora 创始人 & CEO 赵斌为我们带来了直播连麦、在线游戏房、智能 AR 眼镜、K12 家教一对一、视频急救 120 等诸多已经成型并落地的应用。其中在直播方面,声网专门推出了百万人实时大频道互动能力,从更高质量、更大规模、更低延时三个角度,实现线下巨型会议的线上化。从实际应用数据来看,实时大频道互动中,98.5% 的参与者延迟在200ms以内,优质传输率为 97.3%。在演唱会、体育比赛、讲座大课等超大型直播场景下,观众不仅能够观看直播,更可以把自己的现场反馈如欢呼、尖叫反馈给主播和其他观众,重现现场感受。

众所周知,当前在国内的社交直播中,已经实现了动态实时滤镜支持,通过实时追踪人脸多个特征点,实现实时动态贴纸、360°无死角美颜、自带哈哈镜和颜色滤镜等功能。而声网还在帮助海外的平台实现这些功能,譬如被称为美国版“陌陌”的全美最大线上婚恋约会社交平台 MeetMe,即实现了互动直播,支持多人连麦互动,之后又陆续推出了人脸识别、脸部特效和虚拟礼物等动态功能。在大会现场,MeetMe 技术高级副总裁 Richard Friedman 分享了对于实时互动的见解:“实时视频是人与人之间的通信交流,表情和肢体语言是很重要的一部分,以前依赖于文字聊天,很多东西其实都没有传输出去。而有了 RTC 之后,这些部分能够有效地被表现出来,从而更好地解决沟通的问题。并且区别从前的长延时直播,低延时互动直播拉近了主播与观众的距离,重新定义了盈利的模式,不止于传统广告,还有用户打赏行为。而未来,实时互动将在生态系统上实现突破。”

640?wx_fmt=jpeg

MeetMe 技术高级副总裁 Richard Friedman

而智能 AR 眼镜在国内外主流媒体都有过大幅报道,便是我国警方已经正式采用智能眼镜执法,只要戴上一副 AR 眼镜,就能实现执法记录、人脸识别、车牌识别、人证比对、实时语音指挥等功能。智能眼镜在实时互动方面的应用除了这点,亮亮视野联合创始人马寅还分享了一个远程医疗急救的例子,在卡塔尔通过 5G 网络与远程医院专家进行沟通,在急救车上解决如何生产婴儿、脑梗治疗等问题。

640?wx_fmt=jpeg

此外,赵斌现场分享的一个视频急救 120 的例子引起了诸多讨论。声网与重庆市联合推出的伤急救视频 120 自救互救服务,能够让伤者实现“一键求救”,医生可通过视频实时指导现场人员自救或互救。

赵斌表示,“这是对行业的一个穿透和改造。过去,打 120 只能在家里等着救护车到,你与医生之间的交流是非常有限的。通过这样的方式,电话结束后通过发送短信里的链接,打开手机浏览器,医生即可知道病人发生了什么,指导病人家属做紧急处理。这个场景一旦成熟,将会改变行业的经营方式和模型。有些幸运的患者经过视频指导后,甚至无须到医院处理,这对紧急情况下病人的福祉有深度影响。”

当笔者闻此时,不禁想起了让人痛心的一再发生的滴滴顺风车乘客遇害事件。在此之后,滴滴大力推广通过添加紧急联系人夜间出行开启自动行程分享来解决这一安全痛点,笔者在电梯中常常会见到,从一定程度上来讲,应该是通过 Socket 长连接不断发送地理位置。

640?wx_fmt=jpeg

顺风车事件后,笔者便常见到滴滴开启行程分享的广告

那么,我们是不是可以通过集成这样的实时互动 SDK 服务,在滴滴中,只需一键操作,即可报警或求救,而对方可以实时地获取行程路径位置、车辆、司机等信息?当笔者就此疑问来请教赵斌时,他对此进行了肯定,不过要想在出行中实现这样的安全保障还需要从行业的对接与努力。


640?wx_fmt=png

这一切应用的背后,是标准制定与技术的迭代


去年 6 月,笔者在《苹果终于入伙 WebRTC,新一代移动 Web 应用爆发路上还有哪些坑?》一文中曾为大家详细解读了 WebRTC(网络实时通信)这项技术的来龙去脉,彼时在聊到“苹果 Safari 终于实现对于 WebRTC 的支持,究竟意味着什么?”时,声网创始人 & CEO 赵斌与我们分享道:“在 Safari 支持 WebRTC 后,过去只能在诸如 Chrome 浏览器之间实现的音视频通话,现在在 Safari 以及 Chrome 与 Safari 之间实现了,其影响一定是积极的。可以预见,很多网站及开发者将会更加认真地考虑将这类功能添加至网站及应用中。”

在过去的一年里,我们不仅看到了苹果支持 WebRTC 所带来的各种音视频应用实现支持 WebRTC,并将浏览器作为音视频应用的入口,还迎来了 WebRTC 1.0 的 Feature Complete。赵斌表示,“这是一个里程碑的事件,这是行业多少年来的发展和推动走到了今天的成果”。此外,在 RTC 领域,还有几项重大技术事件的发生,包括 AV1 1.0 版定稿,苹果加入 AOM 联盟;AVS 2.0 音频标准颁布,中国原创音视频标准完成等。当笔者问到这些对于 RTC 意味着什么,将带来哪些改变时,赵斌如是说道:“WebRTC 的定稿意味着功能和能力上的最终固化,这势必将带来行业的标准统一,下一步是繁荣成长和互通互动能力的扩展。而新一代的视频编码是免费开源的能力开放,也会促进这个场景应用能力的延伸,就如同我们运营商每个月为开发者和创业者提供一万分钟的免费使用,给予他们非常大的自由度可以在没有成本顾虑的环境下做创新。”

而一直以来“延时”是横亘在通信面前的一大难题,笔者曾言过“现存的互联网作为冷战时代的产物最早其实是为了用于保障美国通信网络,其在网络传输方面的种种局限也直接导致了现在的互联网在大文件传输、实时传输方面的窒碍难行。而语/视频通信、直播连麦对实时性要求非常高,要求延迟低至几百毫秒,因此,现存的互联网并不能满足这种新型的实时应用场景。”

也是因为这点,从 IM 到实时通信,一直都在致力于解决传输问题,而赵斌也表示,“在过去的一年里声网的研发团队在持续改进和提高音视频处理方面的能力,其 Agora Solo™ 编码算法的升级版 Solo X™ 不仅能够改造丢包对抗的能力,现在还实现了与 WebRTC 默认标准的 OPUS 编码结合,帮助 OPUS 提高丢包对抗能力,且可以实现兼容互通。比如在浏览器上智能用标准的 OPUS,在客户端可以用其他编码算法,当这两者互通时,是不是能够平滑切换并继续使用丢包对抗能力。”

在大会现场,声网 Agora 首席科学家钟声则更系统地为我们讲解了从视频编码、网络和云数据中心、视频前/后处理以及深度学习等技术挑战。譬如如何在低延时限制(比如 < 300ms)下有效对抗 70% 网络丢包率?又如何实时准确估计上下行网络的可用带宽?如何及时发现、修复和预防影响用户体验的问题?如何标定相关数据,比如对视频内容、用户画像的精确描述?如何有效提升图像解析度和细节、修复图像损伤?如何设计可以基于更小数据的小模型快速学习算法、推理决策能在移动端软件实时运行等等。

基于这种种的挑战,钟声分享了声网技术团队经过研究摸索实践后的初步成果。在丢包率方面新算法对比传统算法已经实现了在高丢包率和低延时下更具优势,譬如在 4 帧延时、60% 丢包率的情况下实现了 21.36% 的码率节省。而在诸如图像、文件传输过程中由于低码率或低分辨率而导致出现模糊情况,声网研发团队通过深度学习算法,让细节和清晰度都实现了极大提升。

640?wx_fmt=jpeg


640?wx_fmt=png

当 AI 与 RTC 深度融合、5G 商用落地,实时互动将走向何方?


钟声在现场提出了一个问题 —— “今天的实时技术状态犹如 20 年前互联网 1.0 时期刚兴起那般充满了期待,那么未来的 RTC 2.0、3.0 又将如何?”并基于此分享了一则数据 —— “思科在 2017 年做过预测,互联网流量从 2017 年到 2021 年将实现 4 倍增长,其中视频流量将会持续增长到 87%。就细分领域来看,实时视频会增长 15 倍,占视频流量的 13%,也就是整个互联网流量中超过 11%;在线游戏增长 11 倍,占整体的 5%,VR/AR 将增长 20倍,由于现有基数较低,2021 将占全球流量的 1%,但随着 5G 的到来,将会实现爆发式增长。”

而赵斌则是更系统性地为我们梳理了在实时互动方面的行业趋势,主要分为三点:

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽,造成漏登,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

回到顶部
嘿,我来帮您!