一、元宇宙概念


2021年元宇宙这个概念真的火的一塌糊涂所以我也来凑一下热闹讲一下我理解的元宇宙, 但是技术公司当然就是从技术的角度去讲元宇宙了.

2020年4月24日,欧美著名说唱歌手Travis Scott也在《堡垒之夜》中举办了一场虚拟演唱会,参与人数高达1230万,表演者虚拟形象和三维虚拟场景带来的沉浸式体验,激发了大量玩家的参与热情,获得广泛好评后面Facebook更加直接把公司名字改成“Meta”。然后字节跳动收购了一家VR硬件公司Pico,随后腾讯、百度、网易等一票互联网大厂跟进,布局、VR、元宇宙赛道.各家互联网平台和个大卫视也是铆足了干劲一共推出了10几档跨年晚会而各家跨年晚会有一个突出地特点但就是都采用了酷炫的虚拟技术

今年不愧是“元宇宙元年”,元宇宙正在从概念变成现实。

在元宇宙概念中诠释道,“元宇宙(Metaverse)是整合多种新技术而产生的新型虚实相融的互联网应用和社会形态”。用大白话就是通过新的技术制造一个跟现实世界一模一样的虚拟世界

元宇宙的概念最早在1992年的《雪崩》中提到,而后受制于技术的不完善,元宇宙的概念更多的在影视中提到,例如1999年~2003年的《黑客帝国1~3》、2018年的《头号玩家》、2021年的《失控玩家》。

按照Roblox的官方说法,元宇宙产品应具备八大要素:身份、朋友、沉浸感、低延迟、多元化、随地、经济系统、文明。

然而元宇宙沉浸性的塑造并不仅由特效的细节和技术性的渲染来打造,还需通过借助视觉以外的其他感官以及科技创新,让用户在虚拟环境中的达到心理的沉浸以及情感的参与。

笔者认为这次“元宇宙”这个概念是会慢慢被大众接受,并且也会开始进入大家的生活之中,主要是娱乐教育这两个领域会最先取得效果,之后也会涉及协同办公科研领域等。

、元宇宙技术相关

1. 虚拟形象分类和框架

虚拟形象是元宇宙的重要组成部分,用户想要进入元宇宙必须先拥有虚拟形象的化身。

人工智能产业发展联盟根据虚拟形象制作技术及其在市场上的形态总结出一套虚拟形象通用系统框架:



其中交互模块为虚拟形象的拓展项,一些侧重于展示的虚拟形象无需具备交互能力(如小红书、抖音平台的虚拟KOL),而强调交互的虚拟形象可通过语音语义识别等AI技术真人操控来完成与用户的交互。

具有交互能力的虚拟形象可进一步划分为真人驱动型虚拟形象和智能驱动型虚拟形象两类:

1. 真人驱动型虚拟形象是在完成原画建模和关键点绑定后,由佩戴动捕设备或特定摄像头的真人实时驱动,多应用在直播等泛娱乐领域(注:崽崽等产品的虚拟形象不属于真人驱动型互动,属于预设动作型互动)。

2. 智能驱动型虚拟形象旨在优化流程提高效率,多应用在专业场景。


2. 虚拟形象产业链

1)概览



虚拟人产业链从下至上可分为基础层、平台层、应用层。

其中基础层为虚拟形象的制作提供基建,例如芯片对传感器所采集的数据进行预处理并渲染模型,渲染引擎进一步优化灯光、毛发等细节。基础层领军企业主要是Meta、英伟达、Unity等技术壁垒深厚的巨头。

平台层中的软硬件系统企业从基础层获得数据信息后通过软件算法重现人物动作,生产技术服务平台提供一站式虚拟形象解决方案,AI平台提供交互技术能力,代表性企业包括腾讯、网易等互联网大厂和商汤科技、科大讯飞等AI头部企业。

应用层则更多聚焦在为虚拟形象填充内在和应用场景上,例如短视频、直播、游戏、影视等领域。

2)主要入局者



英伟达在2020年12月开放测试虚拟协作平台 Omniverse ,该平台为开发者提供一系列技术与工具,以助其高效构建3D虚拟场景或真实世界的数字孪生。

2021年4月的GTC2021GPU技术大会上,英伟达CEO黄仁勋以逼真的1:1虚拟化身现身14秒,其所处场景亦为渲染出来的虚拟画面,从而展示Omniverse 强大的仿真能力。

英伟达依托 GPU+AI 优势在2021年11月的GTC2021人工智能大会上正式发布用于创建 AI 虚拟形象的技术平台OmniverseAvatar。

该平台将现有的语音识别技术、推荐引擎、视频处理和分析技术、大型语言模型、面部动画和渲染技术、光线追踪技术等融为一体,基于以上核心SDK用户可创建具备交互能力的AI虚拟形象。

根据风格与应用场景的不同,英伟达推出的虚拟人分为三类:

1. 根据本人形象生成的卡通虚拟人 Toy-Me

2. 可实时进行多语种翻译 的超写实虚拟人

3. 可进行零售结账与客户服务的虚拟机器人


3. 虚拟形象技术方案前瞻

1)3D建模技术

3D建模技术与动画制作软件已发展的较为成熟,已广泛应用于电影、游戏等领域。

早期3D建模技术以结构光扫描为主,虽可实现毫米级重建精度,但过长的扫描时间导致其难以对运动目标进行较好的刻画,近年来多相机矩阵技术克服了以上问题,多相机矩阵技术可满足20~140台相机的高精度同步、快速拍摄和储蓄,由此获得的人脸模型可精确到皱纹、毛孔等细节。

客户在获得模型的3D格式数据后,可进一步利用Maya等工具集对其进行处理以生成3D动画。

2)动态光场重建技术

动态光场重建技术的高速发展可让光场测量三维世界中各个方向上流动的光,基于此特点可以更好的呈现不同观看视角下事物的光影效果,为3D建模提供更加丰富的图像信息;
光场技术应用在VR/AR头显领域可以使头显模拟出人眼感知光线和聚焦的方式,从而呈现出更自然的观感,或显著改善由长时间佩戴设备导致的眩晕感。

2021 年 4 月头显技术创业公司 CREAL 发布的 VR 头显便采用光场显示器与中心凹结构,与大多数采用基础3D显示技术的VR头显相比,CREAL头显可以使用户在任何场景任意距离自动对焦。



3)AI语音交互&捏脸

当前全球AI主要应用还聚焦在城市治理和运营领域,在文娱、医疗农业等领域的渗透率相对较低。

近年来随着深度学习算法不断优化、算力大幅增加,计算机视觉、自然语言处理等分支技术取得突破性进展,基于自然语言处理技术的人机交互产品及服务因此实现高速增长。

以虚拟主播、数字员工为代表的虚拟人将客服答疑、智能营销等多种功能合而为一,并有助于塑造客户品牌形象,有望成为人机交互产品的价值突破点。

AI虚拟形象捏脸领域国内网易伏羲是相关研究的拓荒者。为了满足游戏玩家个性化需求捏脸系统始于《上古卷轴3》现在已广泛应用在《天涯明月刀》、《逆水寒》、《永劫无间》等MMORPG游戏中。

随着捏脸参数不断增加,在提升个性化程度的同时也增加了捏脸的难度。

为了让用户能轻松定制专属于自己的虚拟形象,2019年5月网易伏羲AI Lab携手密歇根大学发明面部捕捉深度学习算法MelnGame,仅需玩家上传一张人物肖像照片就可以生成虚拟面部的形状和纹理,与此同时该算法还会根据游戏年代设定调整面部特征,现已在《逆水寒》、《永劫无间》等游戏中得到应用。


4)动作捕捉技术



当前动捕技术按照实现方式不同分为三类:光学捕捉、惯性捕捉、视觉捕捉。

光学捕捉通过摄像头对演员身上粘贴的马克点进行追踪来获取演员动作,该方式可实现多目标同时捕捉,但对环境要求较高,且造价高昂。常常应用在医疗、运动、电影等专业领域以及对高精度,低延迟要求较高的平台。

惯性捕捉的硬件基础是IMU(惯性测量单元),通过算法计算IMU在特定谷歌节点上的运动轨迹来实现动捕,该方案成本相对低廉,但精度较低,且会随着使用时间的增加累计误差。常常应用在影视作品中。

视觉捕捉以新兴的计算机视觉技术为底层技术,较上述两类方案而言更简单易用、成本更低,但与此同时算法开发难度大、精度难以得到保障。该动捕方式更多应用在消费场景,例如可以通过手机自带的深感摄像头完成基础面部和肢体捕捉,目前多应用于“纸片人”虚拟主播,随着虚拟形象加速吸引年轻群体,低门槛的视觉捕捉方案有望成为UGC创作者涌入虚拟形象赛道的首选。



5)渲染技术

日本机器人专家森昌弘提出的恐怖谷理论:当机器人/虚拟人与真人的相似 度高到某一临界点时,人们对其产生的反应将会由好感转变为极其反感, 并产生排斥、恐惧等负面心理。



早期3D引擎渲染出的蜡像感虚拟形象会给用户带来不适,近年来随着PBR技术(基于物理实验的渲染技术)不断进步,Unreal Engine 4、Unity 3D 5 等渲染引擎均能更真实地反映模型表面折反射光线的强弱,从而突破恐怖谷效应。

Epic Games旗下的渲染引擎UnrealEngine于2021年2月推出高保真虚拟人制作工具 MetaHuman Creator,该工具拥有从发型、肤质到体型等多种真人扫描素材,用户可自行组合素材以快速创建高保真 虚拟人,基于Unreal Engine的渲染能力,MetaHuman Creator可实现光源在不同肤色、纹理下的不同呈现,从而达到高精细度。



电影、游戏宣传片、广告短片等预录内容多采用离线渲染技术,设计师可花费大量时间完善细节,但对于舞台表演、直播等实时交互场景,离线渲染不再适用。

与数小时渲染一帧画面的离线渲染相比,实时渲染每秒至少渲染30帧画面,对硬件能力提出了较高要求,目前英伟达RTX显卡及其平台可提供高效的GPU渲染解决方案。

另一方面,受限于有限的计算资源,实时渲染可持续时效亦有限,倘若计算能力或渲染能力不足,将会在实时互动中出现穿模、静止等“翻车”现象。

4. VR/AR/MR技术相关

自从全球进入信息化以来,人类的终端经历了2次迭代,第一代是个人电脑,第二代是自2007年至今的智能手机。

纵观2次迭代,我们发现能够取代上一代终端的硬件,都在计算、显示、交互、存储、通信五大方面较上一次有革命性的变化和创新,VR/AR与智能手机相比,上述五大方面均体现出革命性的变化。

VR从2014年的VR盒子到2016年PC VR头显再到2019年移动VR头显,预计2025年VR外显将往更轻便更小型发展。

根据中国信通院发布的体验层次参数,目前主流的VR头显已经达到部分沉浸水平,以当前最畅销的Oculus Quest2为例,单眼分辨率已经达到2k水平,视场角98°刷新率能达到90Hz,6DOFinside-out定位,除了视场角有微小的差距外,其他硬件参数均达到才部分沉浸的要求。

2021年上半年发布的产品中部分头显分辨率能达到5K水平,LYNX R1和惠普Reverb G2两款VR头显新增眼动追踪功能,预计下半年Quest2的升级版将增加眼动追踪配置。



5G+云XR解决当前VR/AR诸多痛点,助力VR/AR加速普及。

XR是指将云计算、云渲染和云存储的概念引入XR业务中,借助高速稳定的网络,将云端的显示输出、声音输出等经过编解码压缩后传输到用户的终端设备,实现XR业务的内容上云、渲染上云和存储上云。


VR将内容存储和图像渲染迁移至云端,VR头显设备只需要具备解码、呈现及网络接入能力,大大降低了对头显设备的性能要求,有效降低头显设备的成本的同时也将促进头显设备往轻量化发展。


5. 区块链技术相关

1)NFT

在区块链上,数字加密货币分为原生币和代币两大类。

前者如大家熟悉的比特币、以太币等,拥有自己的主链,使用链上的交易来维护账本数据;

代币则是依附于现有的区块链,使用智能合约来进行账本的记录,如依附于以太坊上而发布的token。

代币之中又可分为同质化和非同质化两种。

同质化代币,即FT(Fungible Token),互相可以替代、可接近无限拆分的token。

例如,你手里有一个比特币与我手里的一个比特币,本质上没有任何区别,这就是同质化,就是同质化币。

而非同质化代币,即NFT,则是唯一的、不可拆分的token,如加密猫、token化的数字门票等。

也就相当于带有编号的人民币,这个世界上不会有两张编号一样的人民币,也不会有两个完全一样的NFT。

因此,相较于FT,NFT的关键创新之处在于提供了一种标记原生数字资产所有权(即存在于数字世界,或发源于数字世界的资产)的方法,且该所有权可以存在于中心化服务或中心化库之外。

NFT的所有权并不阻止其他人视察它或阅读它,NFT并不是捕获信息然后把它藏起来,只是捕捉信息然后发现该信息与链上所有其它信息的关系和价值。

2)DeFi



DeFi的含义是去中心化的金融Decentralised Finance,他一般是指基于智能合约平台(例如以太坊)构建的加密资产、金融类智能合约以及协议。

DeFi旨在以区块链技术和密码货币为基础,创建无需中心化中介的金融服务,它描绘了这样一个愿景:每个人都可以直接参与全球范围的点对点的金融活动。

DeFi具有普惠性、安全性、隐私性、结算便捷、结算成本低廉等特点。用户对自有链上资产各项金融活动的完全掌控,所有人的金融操作不受地理、经济水平、信任限制。通过智能合约,能够自动自主执行,规避暗箱操作。

Defi将构建元宇宙独立、高效、透明的虚拟金融体系。

3)DAO

DAO是Decentralized Autonomous Organization的缩写,是基于区块链核心思想理念(由达成同一个共识的群体自发产生的共创、共建、公治、共享的协同行为)衍生出来的一种组织形态,是将组织不断迭代的管理和运作规则(共识)以智能合约的形式逐步编码在区块链上,从而在没有第三方干预的情况下,通过智能化管理手段和Token经济激励,使得组织按照预先设定的规则实现自运转、自治理、自演化,进而实现组织的最大效能和价值流转的组织形态。

DAO利用区块链来验证交易,DAO中的每个人都可以发布提议并进行投票来做决策,加密货币用来代表关键价值和投票权,在指定时期结束时具有最高数额的投票获胜。

DAO的具有充分开放、自主交互、去中心化控制、复杂多样以及涌现等特点。

与传统的组织现象不同,DAO不受现实物理世界的空间限制,其演化过程由事件或目标驱动,快速形成、传播且高度互动,并伴随着目标的消失而自动解散。

在元宇宙的参与者依据兴趣爱好、经济利益、意识形态等重构社会圈层,利用DAO技术建立营利性组织,例如公司或者合作社等,非营利性组织例如社区、协会、兴趣小组等,进行投票、决策、价值分配等。