一、数字人到底是个啥?一句话说清核心
先抛个最简单的定义:数字人就是“活”在数字世界里的“人”。不是动画片里的卡通形象,也不是游戏里的Npc(非玩家角色),而是能像真人一样听、说、动,甚至能思考互动的虚拟存在。
打个比方,你刷短视频看到的虚拟主播、打电话时遇到的智能客服、银行App里帮你办业务的虚拟助手,这些都是数字人。它们有的长得和真人一模一样,连皱纹、发丝都清晰可见;有的是卡通风格,但说话做事透着“人情味儿”;还有的只闻其声不见其人,但能精准理解你的需求——本质上,它们都是用技术堆出来的“数字分身”或“虚拟员工”。
可能有人会问:“这和 Siri、小爱同学有啥区别?”关键就在“形象”和“交互”上。语音助手只有声音,而数字人有可视化的“人形”,还能做动作、变表情,互动起来更像和真人对话。就像同样是聊天,打电话和视频通话的感觉完全不同,数字人就是给智能语音装上了“身体”和“脸”。
还有个容易混淆的概念是“智能体”。简单说,智能体是能自主干活的智能系统,比如自动下单的机器人、导航软件里的路线规划程序,不一定有人的样子;而数字人是智能体的“特殊款”,必须长着人形(或类人形),还得会模仿人的社交行为。比如同样是客服系统,纯文字回复的是智能体,而屏幕上那个边说话边点头的虚拟客服就是数字人。
二、数字人是怎么造出来的?拆解“造人”全过程
别看数字人五花八门,从制作到能干活,都得经过“搭骨架、塑外形、装大脑、练动作”这几步。就像造机器人,先做身体,再装智能系统,最后教它怎么动。
第一步:画图纸、塑外形——给数字人“造身体”
这是数字人最直观的一步,就像给虚拟人做“肉身”,主要分2d和3d两种路子。
2d数字人最简单,有点像“会动的图片”。比如有些直播间的虚拟主播,其实是用真人照片改的,通过技术让图片的嘴巴、眼睛跟着声音动。你刷到的“AI孙燕姿”短视频,很多就是用这种技术做的——把孙燕姿的照片和AI合成的歌声结合,让图片“唱”起来。这种数字人成本低,几千块就能做一个,缺点是不够逼真,动作也比较僵硬。
3d数字人就复杂多了,相当于造一个“虚拟玩偶”。高端的3d数字人要用专门的建模工具,比如游戏圈常用的Unreal(虚幻)引擎,先搭出骨骼框架,再贴皮肤、画五官,连毛孔、胡茬、皮肤反光都得调。现在还有更省事的办法,用iphone对着真人拍段视频,就能把人的面部表情、动作数据扫进电脑,直接生成和真人一模一样的3d模型。
当年爆火的虚拟美妆博主“柳夜熙”,就是典型的3d数字人。她的团队花了半年多,投入上百万,才做出那逼真的面部表情和动作,第一条短视频成本就高达几十万。不过现在技术进步了,通过SaaS平台(简单说就是“云端工具包”),小企业花几万块也能定制3d数字人,不用再养专业建模团队了。
第二步:装“耳朵”和“嘴巴”——让数字人能听会说
光有样子不行,数字人得能和人交流,这就需要“听觉”和“语言”系统,核心是两项技术:ASR和ttS。
ASR就是“语音识别技术”,相当于数字人的“耳朵”。你对着数字人说话,它能瞬间把声音转成文字。比如你问“今天天气怎么样”,ASR会把这句话变成文本发给后台系统。现在这技术很成熟,手机输入法里的语音转文字、智能音箱的唤醒功能,用的都是同款技术。
ttS是“语音合成技术”,也就是数字人的“嘴巴”。后台系统算出答案后,ttS能把文字变成声音。早期的合成音很机械,像“机器人说话”;现在有了AI大模型,能模仿真人的语气、声调,甚至能复刻特定人的声音。比如“AI孙燕姿”的歌声,就是用孙燕姿的真实歌曲数据训练模型,让AI学会她的声线和演唱习惯。
现在高级点的数字人还能“定制声线”。比如企业做虚拟客服,能把真人客服的声音录下来,训练成专属语音,客户打电话听到的就是熟悉的“老客服”声音,亲切感一下子就上来了。
第三步:装“大脑”——让数字人变聪明
这是数字人从“木偶”变“智能人”的关键,以前的数字人缺的就是这个,所以只能念稿子、做重复动作,现在有了大语言模型(LLm),才算真正有了“灵魂”。
早几年的数字人,“大脑”其实是预设好的脚本。比如你问它“营业时间”,它能答;但你多问一句“周末营业吗”,它可能就卡住了。就像提线木偶,只能做提前编好的动作。
现在的数字人,直接把Gpt、文心一言这样的大模型当“大脑”。你问它啥,它先通过ASR把话转成文字,传给大模型;大模型像真人一样思考,生成回答文本;再通过ttS变成声音说出来。这个过程快的话只要几百毫秒,感觉就像数字人在“实时聊天”。
比如罗永浩的数字人直播时,有人问“这个手机续航怎么样”,大模型会结合产品参数,用口语化的方式回答,还能顺便推荐快充配件,这都是以前的数字人做不到的。百度副总裁说,现在的数字人已经能达到“媲美头部主播”的交互效果,就是因为大模型给了它真正的“思考能力”。
第四步:练动作——让数字人动起来更自然
光会说还不够,数字人得“动起来”才像人,这就需要“动作驱动”技术。
简单的动作驱动靠算法。比如数字人说话时,嘴巴要跟着语音动,算法会根据声音的频率、节奏,自动控制嘴巴的开合大小,还能加点头、眨眼的小动作。你刷到的2d数字人,基本都是用这种方式驱动的。
复杂的动作就得靠“动捕技术”。比如虚拟偶像跳舞,是让真人演员穿戴上带传感器的衣服,演员跳一遍,数字人就跟着学一遍,动作精准到手指的弯曲角度。现在还有更高级的“无标记动捕”,不用穿特制衣服,摄像头拍真人动作,电脑就能自动识别并传给数字人。
现在的高端数字人,连“微表情”都能做。比如你夸它“说得真好”,它会微笑着点头;你问它复杂问题,它会皱着眉“思考”。这些都是通过捕捉真人的表情数据,再教给数字人做出来的。
三、数字人分哪几类?从“花瓶”到“实干家”的进化
数字人不是一刀切的,按“聪明程度”和“用途”能分成好几类。几年前火的大多是“花瓶型”,现在主流是“实干型”。
按智能程度分:“木偶型”和“思考型”
“木偶型”数字人是早期的主流,没有真智能,只能做预设好的动作、说固定的话。比如商场里的虚拟导购,只会循环播放“欢迎光临”“这件衣服打8折”;还有些虚拟偶像的舞台表演,其实是提前编好的动画,就像放电影一样,不能和观众互动。
“思考型”数字人是现在的新趋势,靠大模型驱动,能自主思考、灵活互动。比如京东618期间的数字人主播,能上手测试产品,有人问“这冰箱耗电吗”,它会马上调出参数回答,还能对比其他型号;医院的虚拟导诊,能根据你的症状推荐科室,甚至提醒你带什么检查报告。这种数字人才算真正的“智能数字人”。
按用途分:“娱乐型”和“实用型”
“娱乐型”数字人最开始火起来的,主要是虚拟偶像、虚拟主播。2021年那波热潮里,屈臣氏推了“屈晨曦”,花西子搞了“花西子虚拟人”,都是想靠虚拟偶像吸引年轻人。但后来大家发现,虚拟偶像成本高、粉丝粘性差,抖音上虚拟主播的平均观看时长从15分钟跌到5分钟,粉丝流失率超40%,很多品牌悄悄把虚拟代言人撤了。
现在更吃香的是“实用型”数字人,也就是帮企业干活的“虚拟员工”。比如金融行业的虚拟客服,24小时在线解答贷款、理财问题,比真人客服效率高还不用发工资;教育领域的虚拟老师,能一对一给学生讲题,还能根据答题情况调整进度;政务大厅的虚拟导办,能帮人填表格、查流程,不用排队等真人。
百度的罗永浩数字人就是“实用型”的代表,在百度电商直播时,吸引了1300多万人观看,GmV(成交总额)突破5500万元,比罗永浩真人同期首秀的数据还好。京东的数据更夸张,618期间有1.7万家品牌用数字人直播,这些数字人带货能力超过了80%的真人主播。
四、数字人离我们有多近?盘点身边的数字人应用
现在数字人已经渗透到生活的方方面面,只是很多时候你没意识到那是数字人。从购物到看病,从学习到办事,到处都有它们的影子。
电商直播:24小时不休息的“虚拟销售”
这是数字人最常见的场景。很多品牌直播间里,半夜还在带货的主播可能就是数字人。它们不用吃饭、不用睡觉,能从凌晨播到天亮,还能记住所有产品的参数、优惠信息。
比如美妆品牌的数字人主播,能对着镜头演示化妆步骤,有人问“适合干皮吗”,马上就能答出产品成分和保湿效果;3c产品的数字人,能熟练讲解手机的处理器、摄像头参数,比刚入职的真人销售还专业。更厉害的是,数字人能同时在多个平台直播,一个“人”顶好几个真人主播。
不过数字人直播也有翻车的时候。有的数字人因为算法问题,会说些莫名其妙的话,比如把“降价”说成“涨价”;还有的动作僵硬,嘴巴和声音对不上,被观众一眼看穿。但总体来说,对中小品牌而言,数字人直播性价比很高——花几万块做个数字人,比雇几个真人主播一年几十万的工资划算多了。
金融服务:不会不耐烦的“虚拟柜员”
银行、证券这些行业,现在特爱用数字人。招商银行的“AI小招”就是典型,你打开App办信用卡,它会像真人柜员一样问你需求,帮你选卡种,还能解释年费、额度这些问题。要是半夜想查理财收益,数字人客服随叫随到,比等第二天银行开门方便多了。
还有些证券App的数字人投顾,能根据你的风险承受能力推荐基金,你问“这只基金最近跌了怎么办”,它会分析市场行情,给出加仓、减仓的建议。虽然不能替代专业投顾,但解决普通用户的基础问题绰绰有余。
政务办事:不用排队的“虚拟导办”
现在很多地方的政务服务大厅都上线了数字人。比如你去办社保转移,不用找真人咨询,直接问数字人,它会一步步教你填表格、准备材料,还能帮你预约办理时间。西宁、绵阳等地的政府部门,今年都上新了数字人,专门帮市民解答医保、公积金的问题。
这些政务数字人最大的好处是“有耐心”。不管你问多少遍“材料要复印几份”“去哪里盖章”,它都不会烦,而且回答得特别标准,不会像真人那样可能记错政策。对老年人来说尤其友好,不用怕看不懂复杂的办事指南,问数字人就行。
医疗教育:随叫随到的“虚拟助手”
医院里的数字人主要当“导诊员”。你去医院挂号,数字人会先问你“哪里不舒服”“疼了多久”,然后推荐对应的科室,还能提醒你“挂内科要空腹”“挂皮肤科不用憋尿”。有些医院的住院部数字人,还能帮家属查探视时间、订餐,减少医护人员的重复工作。
教育领域的数字人更像“私人助教”。小学生的数字人老师,能教拼音、背古诗,还能纠正发音;大学生的数字人辅导员,能解答选课、补考这些问题。甚至还有针对职业教育的数字人,比如教电工接线的虚拟老师,能360度展示操作步骤,比看课本直观多了。
五、数字人热潮退了?从“造星”到“干活”的冷静期
2021年那波数字人热潮,有点像“全民造星”——企业都想做个虚拟偶像蹭热度,资本也疯狂跟风,A股的数字人概念股轮番涨停,还流传着“3个月造星、6个月回本”的说法。但热闹了没多久,很多人发现“理想很丰满,现实很骨感”。
首先是成本太高。做个高端3d数字人要上百万,每年维护费还要几十万,可带来的收益却有限。虚拟偶像要涨粉、接广告,得花大量钱运营,可用户新鲜感一过,就没人关注了。很多品牌花大价钱做了虚拟代言人,最后粉丝没几个,广告也卖不出去,只能悄悄下架。
其次是技术瓶颈。早期的数字人大多是“木偶型”,表情僵硬、动作卡顿,说话像背书,根本没法和真人比。抖音、快手这些平台的数据很能说明问题:虚拟主播的GmV还不到真人主播的1\/5,用户付费意愿越来越低,快手后来甚至取消了对数字人直播间的流量支持。
不过这两年,数字人行业反而“降温成暖”,从追求“颜值”转向追求“实力”。原因很简单:大模型技术成熟了,让数字人从“花瓶”变成了“实干家”;同时企业发现,与其花钱做虚拟偶像,不如做个能干活的虚拟员工,性价比高多了。
现在行业里的共识是:c端(面向普通消费者)的虚拟偶像不好做,但b端(面向企业)的实用型数字人是块香饽饽。比如客服、直播、导诊这些场景,数字人能24小时干活,还不用交社保、发奖金,成本能降一大半。百度财报显示,2025年二季度数字人收入环比增长55%,规模约5亿元,主要就来自企业客户。
资本市场也重新盯上了这个领域。2025年上半年,虚拟数字人领域的投融资案件有23起,总金额达35.07亿元,平均每笔融资超过1.5亿元,快赶上2024年全年的量了。政策也在加码,上海今年发布的政策里明确支持数字人技术攻关,多地政府还自己用上了数字人办事,相当于给行业打了“强心针”。
六、数字人会取代真人吗?藏在便利背后的问题
数字人越来越能干,很多人担心:“会不会抢了我的工作?”还有人问:“数字人侵权怎么办?”这些问题确实绕不开,毕竟是新技术带来的新挑战。
先说说“抢工作”的担忧:替代的是重复劳动,不是创造力
首先得明确:数字人能替代的,大多是“机械重复、不需要创造力”的工作。比如电商里的基础带货主播,每天念同样的产品介绍;银行里的客服,回答重复的开户问题;医院里的导诊,讲解固定的办事流程。这些工作数字人干得比真人好,还不用休息,被替代是早晚的事。
但需要创造力、情感交流的工作,数字人很难替代。比如真人主播的临场发挥、和粉丝的情感互动;医生的诊断、和患者的沟通;老师的因材施教、对学生的心理疏导。罗永浩的数字人虽然带货厉害,但要是遇到突发状况,比如直播设备坏了、粉丝故意抬杠,还是得真人团队救场。
甚至数字人还会创造新工作。比如数字人建模师、动作捕捉演员、数字人运营专员,这些都是近几年新冒出来的职业。就像当年流水线机器人出现,虽然替代了部分工人,但也催生了机器人维护、编程等新岗位。
再说说“侵权”的坑:数字人也得讲规矩
数字人越像真人,越容易出侵权问题。比如用别人的照片做2d数字人、模仿明星的声音做语音合成、照搬虚拟人的形象设计,这些都可能违法。
北京互联网法院就判过一起案子:有人抄袭了别人设计的虚拟数字人形象,法院认定这个虚拟人有独创性,属于美术作品,抄袭者构成侵权,得赔钱。法官还明确说了,虚拟数字人分两部分受保护:外在形象如果是原创的,受着作权法保护;如果用了真人的照片、声音,就得经过真人同意,不然侵犯肖像权、声音权。
还有些“擦边球”行为也得注意。比如用AI生成“假明星”直播带货,虽然不是真明星,但长得太像,容易误导消费者;还有些数字人直播间用录播冒充实时直播,欺骗用户停留。抖音去年就处理了17万个这样的录播直播间,封了3万多个账号,就是为了打击这种乱象。
未来这些问题会越来越规范。现在已经有平台要求数字人直播必须标注“这是虚拟人”,不能冒充真人;还有的地方在制定数字人行业标准,明确哪些能做、哪些不能做。就像当年的互联网一样,新技术先发展,再慢慢补规矩。
还有个伦理难题:数字人能有“情感”吗?
现在的数字人能模仿人的表情,比如你难过它会说“别伤心”,但这只是算法预设的反应,不是真的有情感。可如果数字人越来越逼真,甚至能模仿人的共情能力,会不会让人产生情感依赖?
比如独居老人天天和数字人聊天,会不会越来越不愿意和真人交流?孩子长期跟着数字人学习,会不会影响社交能力?这些问题没有标准答案,需要社会慢慢适应。就像当年电视刚出现时,有人担心“看电视会让人变傻”,现在大家也能合理平衡看电视和现实生活的关系。
七、未来数字人会变成什么样?5年之内可能发生的事
根据中国互联网协会预测,2025年我国虚拟数字人核心市场规模会突破480亿元,带动相关产业超过6400亿元。这个规模意味着,未来几年数字人会越来越“接地气”,走进更多场景。
第一:做数字人会越来越便宜、越来越快
现在做个高端3d数字人要上百万,未来可能几万块就能搞定。因为技术在模块化、平台化,就像现在做ppt一样,以后企业打开云端工具,选个模板,改改五官、换身衣服,半天就能做出一个数字人。甚至个人也能做自己的数字人,比如用手机拍段视频,生成一个“虚拟分身”,帮自己剪视频、发朋友圈。
第二:数字人会更“像人”,不只是外表
现在的数字人已经能模仿表情,但未来会更懂“人情世故”。比如你和数字人客服聊天,它能听出你语气里的不耐烦,马上说“抱歉让您久等了,我马上帮您解决”;你和数字人老师请教问题,它能看出你没听懂,换种更简单的方式讲解。这背后是情感识别技术的进步,让数字人从“能说话”变成“会说话”。
百度副总裁平晓黎就说,随着多模态大模型发展,虚拟数字人的效果有望超越真人——比如能同时记住100个产品的所有参数,能瞬间回应100个观众的提问,这些都是真人做不到的。
第三:应用场景会更细分,渗透到各行各业
除了现在的客服、直播,未来数字人会出现在更多意想不到的地方。比如:
- 制造业里的“虚拟巡检员”,戴着VR眼镜,远程检查机器故障;
- 文旅行业的“虚拟导游”,带你逛博物馆,还能讲文物背后的故事;
- 家庭里的“虚拟管家”,帮你接电话、记日程,甚至陪孩子写作业;
- 影视行业的“虚拟演员”,不用真人出镜,就能演危险动作、重复镜头,还能复刻已故演员的形象。
第四:监管会更完善,行业更规范
未来数字人行业会有明确的“游戏规则”:比如数字人必须实名备案,不能冒充真人;用真人数据做数字人必须签授权协议;直播、广告等场景要用数字人,必须提前标注。这样既能保护消费者,也能让行业健康发展。
八、最后总结:数字人到底是个啥?
绕了这么多,回到开头的问题:数字人到底是个啥?
简单说,它是技术发展的产物——用建模技术造外形,用ASR\/ttS技术造听觉和语言,用大模型造大脑,用动捕技术造动作,最后变成一个能在数字世界里干活、交流的“虚拟人”。
它不是用来“追星”的新玩具,而是能帮企业降本、帮人省事的“工具”。就像当年的电脑、互联网一样,刚开始大家觉得新鲜,后来慢慢融入生活,变成不可或缺的一部分。
未来几年,我们会看到越来越多的数字人:可能是凌晨帮你带货的主播,是24小时在线的客服,是医院里的导诊员,甚至是家里的管家。它们不会取代真人,但会让我们的生活更便利——这大概就是数字人最本质的价值:用技术模拟人,最终服务人。