王正男(Jack)不是那种会把创业讲成传奇的人。
和王正男对话,你会迅速感受到一种强烈的反差。他的公司 KIRI Innovations 和他新近火爆的产品 Remy,正试图掀起一场关于 3D 记录的革命,但他本人言谈间,却鲜少谈论“颠覆”或“远见”。更常见的词是“坑”、“侥幸心理”、“差点死掉”、“熬死别人”。他更习惯把失败拆解成一条条事实——哪里不 work、为什么不通、哪一步判断错了。
2018 年毕业,几乎没有犹豫,他直接创业。第一款产品是一套看起来足够聪明的低成本 3D 扫描硬件:把昂贵的光学模组“拆掉”,把成本摊到手机上,只保留一个激光发射器。逻辑漂亮、毛利清晰,也因此在众筹阶段迅速拿到了订单。但接下来三年他亲手验证了那句残酷的结论:“一个 idea 如果只有你做、别人不做,要么你是绝顶天才,要么这路根本不通。我属于后者。”
正反馈消失,融资不确定,创业在那个阶段不再是“理想选择”,而变成了唯一出口。王正男做的决定也异常干脆:证伪完成,立刻换路。硬件放弃,转向软件,从零重做。这种在废墟上即刻转向的能力,让公司在第一次生死攸关的时候活下来了。
转向软件方向后,KIRI 在技术路线的快速迭代中,总能近乎本能地踩准节点。从摄影测量到 NeRF,再到 3D高斯泼溅,当同行还在观望论文时,KIRI 已经把它们变成了可用的产品功能。他称之为“工程节奏”,外人看来,这是一种将前沿技术迅速“翻译”成现金流与增长的独特生存术。
如今,带着 10 天获取百万用户的 Remy,他站在了聚光灯下。 Remy几乎和 KIRI 过去的逻辑相反:它不服务专业创作者,而是面向普通人;不强调效率与参数,而是强调“记录”。王正男并不把它视为一次运气爆发,而是一种长期判断的自然延伸。当AI生成式内容越来越强,仍然不可替代的,是对现实世界的真实保留。
在这次对谈中,王正男没有试图把自己塑造成“连续创业者”或“技术布道者”。他更像一个反复被现实修正过的工程型创始人:直觉很强,但并不迷信直觉;相信判断,却随时准备推翻自己。
当现有巨头仍生长在 2D 结构的旧土之上,Jack 更关心的是另一种可能:一个从一开始就为 3D 交互而生的平台,是否会在被忽视的角落里,慢慢长出新的秩序。在抖音与小红书之间,看似被填满的缝隙,在他眼中反而是一块尚未被真正理解的空地。
他把这种判断称为“非共识”。不是因为它激进,而是因为它暂时不被多数人需要。而过往的经验反复提醒他,真正值得下注的,往往正是这些尚未被广泛认同的判断。
这场专访,正是从这个问题开始展开。以下是本期「ya!ya!」访谈实录,enjoy~
Jane:很开心这期节目,我们邀请到了 KIRI 的创始人王正男(Jack)。先请 Jack 跟大家打个招呼,简单介绍一下自己和公司。
Jack:Hello,大家好,我是王正男Jack。我们公司叫 KIRI,我们做的是手机端的 3D 重建:我们用手机围着一个物体或一个场景拍一段视频,就能把这段视频变成高质量、和现实世界1:1映射的 3D 模型。
Jane:接下来进入快问快答环节,你的星座和 MBTI 是什么?
Jack:金牛座, ENTP。
Jane:你读书期间有没有什么爱好或经历,后来对创业有帮助?
Jack:很多。读书时最大的爱好是音乐,喜欢古典音乐,也会自己玩乐器。后来你会发现,比如现在经常要参加发布会、要上台,那个状态和当年学乐器很像:你需要把自己放在舞台上,去享受一个“高光时刻”。所以我不太怯场,也挺享受那种表达的感觉。回头看,这可能就是当年学乐器给我的训练。
Jane:如果让你把 KIRI 的创业经历写成一本书,你会取什么书名?
Jack:这是个好问题。我觉得可以叫《那些年我踩过的那些坑》。应该会很有意思。
Jane:如果不创业,你最想做什么?
Jack:我可能会去做艺术,总之,想做能表达自己的东西。不过我也觉得,做产品本身也是表达,所以两者其实挺契合的。
Jane:你在创业过程中做决策时,直觉和数据分析哪个占比更高?
Jack:直觉更多。
当正反馈消失,创业成了唯一出口
Jane:你2018 年毕业,马上就创立了公司,当时就选择了 3D 方向。这个方向的选择契机是什么?
Jack:创业的契机来自几段上学时的经历,有正面的也有负面的,最后把我推到了创业这条路上。
第一段经历是实习。我当时在一家车企实习。你知道在国外找实习竞争也挺大,而那家车企又是我特别想去的地方,所以我当时超级兴奋:终于拿到了 dream job,觉得自己马上就能大展拳脚、改变世界了。
但进公司之后发现,现实跟想象完全不一样:在一家公司工作并没有那么多空间让你“大展拳脚”。那段经历之后,我对“上班这件事”就没那么上头了。毕业后我就想,还是得去做一些更能发挥、更能改变世界的事,于是就直接决定创业。
至于为什么做 3D,其实也挺“反直觉”的:我学的是机械,跟 3D 没太大关系。去汽车行业也是因为机械、也因为我喜欢车。但在车企实习之后,我发现一个问题:我当时的职位是发动机工程师,2016 年左右那会儿发动机听起来很酷,确实是我的 dream job。但进了发动机组,你会发现这个行业太成熟了,几乎没什么发展空间。更尴尬的是,虽然工资不错、工作听起来也高大上,但你在公司里其实没太多事干:项目简单、做完一个做下一个,中间有大量时间空着。
于是我开始反思:传统机械可能不是我真正喜欢的方向,那我该做什么?我就慢慢开始学编程、学 CV(计算机视觉)。顺带说一句,我在机械出身之前也折腾过一段 CV 的东西,所以越学越觉得有兴趣。
后来回学校到最后一年,工科有一个 capstone project,就是毕业设计:我们要找教授、找项目,跟教授一起把项目做出来。我就去找各种教授聊。最后发现有个教授在做 3D 重建,试图把 3D 扫描做得足够低门槛、低成本。我觉得这事很有意思,也跟我当时在折腾的 CV 挺契合。
再加上那时候我也在玩 3D 打印机。那会儿 3D 打印挺火,打印机已经很便宜了,三四百美金就能买一台。但你买了打印机之后会发现:你没有 3D 模型。要么手工建模,要么去网站下载模型。于是我特别想买扫描仪,但扫描仪的价格和打印机完全不对称:打印机三四百美金,最便宜的扫描仪也要三四千美金。
所以我们就在想:如果能把扫描仪做得像打印机一样便宜,这件事就很有价值。于是我跟着老师、做 capstone project,把“低成本 3D 扫描”当成毕业设计做得比较深入。毕业之后我又决定创业,就想那不如把这个项目继续做下去,把 3D 扫描真正变成我们的事业。再加上 3D 本身很酷、我也真的喜欢,所以就一直做到现在。
Jane:听起来有很多机缘巧合。
Jack:确实是机缘巧合。甚至我有时候也会想:如果当时不去那么传统的车企,或者去了一个正反馈更多的地方,我可能就不创业了。因为当时在公司里,正反馈几乎为零。
Jane:你当时是在本田吗?
Jack:对,是本田。当时做过几个项目:一个是发动机,另一个是 ADAS。这两块其实也连在一起,比如 ADAS 的控制。说起来也挺尴尬:如果有听众在本田,可能会有同感。那是一家日企,在加拿大的日企,但日本文化依然特别深厚。每天要穿制服上下班:白大褂、白裤子,还要戴一个绿帽子——其实是安全帽,绿色鸭舌帽那种。所有人穿得一模一样,打卡上下班。那种感受确实不太好。
Jane:可能是那种文化跟你的性格不太 match。
Jack:对,真的不一样。我要是去个特斯拉什么的,没准我就留下来了。
Jane:你研究过一段时间 CV,我理解它是偏 AI、偏软件的;但你学的是机械,这怎么会相关?
Jack:其实在加拿大,机械是一个 department(系),里面有很多 stream(方向)。当时机械里有一个 robotics 的方向,跟机器人和自动化相关,里面就会有很多 CV 的内容,所以其实挺相关的。
Jane:那你毕业设计的方向,后来对应的是你们第一代产品——那个 3D 扫描仪硬件?
Jack:对,是的。
Jane:当时是同学跟你一起出来创业?老师也参与了吗?
Jack:老师没有直接参与。我们 capstone 项目组一共四个人,最后被我“薅”过来三个人创业——准确说是另外两个人加我,一共三个。有一个人没被我薅过来。就是从一个项目开始,慢慢就起来了。
Jane:你们当时强调“低成本”,行业里三四千美金的扫描仪,你们做到多少?
Jack:先给大家简单讲一下硬件产品的形态和成本逻辑。一般来讲,即便到今天,消费级 3D 扫描仪也大多是“模组”形态:一个长条模组,上面有光源发射器(常见是红外结构光发射器,或可见光的 DLP、线激光),还有精度很高的摄像头模组,再加一个能处理 3D 的芯片。光学模组一旦做成这样,成本就会非常贵。所以直到今天,最便宜的 3D 扫描仪也要六七百美金,五六千人民币,其实也不便宜。
我们当时的想法是:3D 扫描需要摄像头、芯片、光源发射器,这三样东西里,手机已经有摄像头和芯片了,那能不能用手机的摄像头和芯片,再配一个外置光源,就做出 3D 扫描?
所以我们做的产品有点像手机支架:你把手机插在支架上,支架上装一个线激光发射器,打出一条“一字激光线”到物体表面。手机通过蓝牙连到支架,控制激光的开关;每次激光开关切换时,手机对物体拍一张照片。然后我们在手机上跑算法,分析线激光在物体表面的形变,通过结构光(线激光)去计算景深信息。围着物体转一圈,就能得到这一圈的 3D 模型。
这样一来,我们把原来昂贵的光学模组成本,砍到了“一个激光发射器”的成本。当时我们的 BOM 成本大概两百多人民币,定价 399 美金。毛利看起来很可观,所以当时就做了这件事。
Jane:从产品设计角度看,这个思路很聪明:把最大成本摊到手机上,用现成硬件来做。
Jack:是,但我后来总结一个很残酷的规律:一个 idea 只有你做、别人都不做,通常只有两种可能——要么你是绝顶天才,要么这东西根本不通,只是你不知道,还硬往上撞。我属于第二种。
Jane:那它不通的关键点是什么?
Jack:核心问题在于手机摄像头的特性。高质量的激光 3D 扫描里,有个极关键环节叫“相机标定”:通过校准得到相机内参外参,这是 3D 扫描精度的基础。标定有一个硬要求:焦段必须固定,不能变焦。因为一变焦,FOV 等参数全变,标定数据就失效。
但手机摄像头在很多机型上“定不住”。当时我们还很天真、刚毕业,特别信奉硅谷那句 fake it till you make it:先做一个 prototype,先把钱拿到,再慢慢把东西做出来。我们最初的 prototype 是基于 iPhone 6s 跑的,iPhone 6s 可以把焦段锁住。但当你扩展到安卓,各种机型竞争,发现根本锁不住。焦段一变,内外参全错,扫描结果就会非常差。
更麻烦的是:你去 Google 搜各种摄像头 SDK,安卓、谷歌、苹果都给了一堆 API,看起来好像能锁参数。但现实是,苹果相对还好;安卓生态非常碎,很多手机厂商(小米、OPPO、vivo,甚至当时的 Nexus)实际实现不统一,SDK 和系统接口并不通用,导致大量安卓机锁不住焦段。最后就是一地鸡毛:产品发出去差评如潮,差点把公司搞死。别人不做,真的是有原因的——它确实很难通。
Jane:你们用了多久把这件事证伪?
Jack:我 2018 年创业,2019 年开始做众筹。众筹做完正好赶上疫情,2020 年没产出来,2021 年才把产品产出来。所以从 2018 到 2021,用了三年。
其实这三年里,很多细节都在提醒“这条路不通”,但我当时侥幸心理太重,总觉得:设备这么便宜,用户可能对质量要求没那么高;那我们再试试。但后来发现:用户对产品的期待,和价格没关系。用户仍然期待很高精度,而我们根本达不到,所以最终就是一地鸡毛。更真实的是:过程中很多时候已经知道错了,但还是硬着头皮往前做,差点把公司做没了。
Jane:我很好奇:你是哪一天真正意识到这条路完全走不通、必须重新开始?你当时怎么想,跟谁讲了这件事?
Jack:我心里一直隐隐有这个判断,但真正“没有任何希望”的时刻,是产品开始出货的时候。我们硬着头皮拿众筹的钱把产品产出来,准备发货时还有侥幸心理。但用户真正拿到机器之后,差评如潮,几乎没有好评。你想,2019 年众筹,疫情导致延迟,用户等了将近两年拿到一个产品,结果什么都扫不出来,大家当然会骂。
那一刻就知道彻底做不下去了。我的问题很明显:侥幸心理太强。但我也有一个“优点”:一旦确认不行,我就会立刻想怎么办,不会陷在失望或内耗里。发现不行,就赶快转型。
当时我们的想法是:虽然产品不 work,但我们验证了用户需求。因为发货之前订单非常多,只要用户没拿到机器,他们会持续下单。说明低成本 3D 扫描的需求真实存在,主要来自当时的 3D 打印人群。问题不是“用户不需要”,而是“我们没有满足需求”。所以我们决定从头再来,去找新的技术栈,真正实现更好的低成本 3D 重建。后来就有了我们现在的产品:KIRI Engine(2022 年上线)。
Jane:也就是从硬件转到软件。
Jack:对,产品不 work,就必须找新的方向,所以转去做软件。
Jane:当你开始想做软件时,你有没有提前想过:这个软件最核心要解决哪些模块、哪些功能点?
Jack:有的。其实当时做硬件时,硬件形态非常简单:手机支架加激光发射器。真正难的是软件和算法。我们当时大量精力都在写 app:连接设备、控制拍照、做图像处理、景深计算、点云计算、表面重建,最后生成 3D 模型。所以转型到纯软件后,反而没走太多坑。
另外在 2021 年左右决定转型时,低成本 3D 扫描其实已经有一些可借鉴的技术路径。一条路径是我们验证失败的手机摄像头加激光结构光(三角测量/laser triangulation)。另一条路径是纯拍照的 photogrammetry(摄影测量法)。摄影测量很成熟,当时已经发展了好多年。
我们发现的机会点是:摄影测量这套方法以前严重依赖 CPU,任务可能要跑几个小时。但随着 GPU 生态和云上 GPU 成熟,如果用 GPU 加速 photogrammetry,就可能把 CPU 跑几小时变成 GPU 跑五分钟。于是我们想:如果把 photogrammetry 写到云端 GPU 上,用户用手机拍照,把照片传到云上计算,再把 3D 模型下载回来,这就形成一个闭环。
我们做了技术验证,发现确实可行,于是做出了 KIRI Engine 的雏形。这里面有一些工程创新,让它算得快、成本低,所以整体其实挺水到渠成的。
Jane:那 KIRI Engine 从构思到上线、到发现它真的 work,周期是不是很短?
Jack:很短,一两个月。
Jane:你们相当于在移动端第一次上线了一个 app?
Jack:对。我们在 2021 年底正式放弃硬件路线。那一年还有一个关键背景:元宇宙风口起来了。虽然硬件没做成,但凭借当时已经跑通的App原型、加上硬件积累的一些用户量和数据,我们融资反而不难,于是融了一轮钱。拿到钱之后,一部分用来处理众筹的退款和补偿,剩下的钱我们开始做软件研发,又招了一个大概五个人的小团队,把软件从零到一做起来,用了几个月,2022 年 3 月上线。
Jane:我看你们前两轮融资是在 2021 年和 2022 年早期完成的。
Jack:跟很多“明星创业公司”很不一样:我们没什么明星光环,所以早期融资非常困难。也就是元宇宙起来那阵子,市场钱多,KIRI 变成一家相对受欢迎的公司。但风一过去、2022 年底环境变差,我们就很难再融到钱了。所以我们很庆幸当时赶快融了几轮,手里有一些现金,才能撑到产品找到 PMF、做到正向收入和增长。经历跟明星创业者确实不一样。
Jane:你有一个很关键的能力:抓机会、抓运气。我觉得这是创业必备能力。
Jack:真的。如果没有元宇宙那波风,这家公司早死了。硬件当时完全没希望。
Jane:那时候大厂都在搞数字孪生、元宇宙、全真互联网,我印象很深。
Jack:对,而且大家也知道元宇宙本身不怎么靠谱,很多公司在做很奇怪的内容。投资人就会往上游看,觉得上游更“靠谱”,而元宇宙上游被认为是 3D 。那 3D 模型怎么来?扫描、建模。当时还没有 AI 生成,所以我们就真的成了“风口上的猪”。
Jane:那时 KIRI 的定位更像专业工具,它有考虑过这是一个大众需求吗?
Jack:完全没有。我们当时经历过一次“差点死掉”,所以对一个事情想得很清楚:融资不靠谱,不能靠融资活下去,最终一定要让产品自己养活自己。于是我们从 day one 就问自己:KIRI Engine 怎么挣钱?谁愿意为它付费?
虽然 ToC 故事很性感,但真正愿意为 3D 付费的人不是普通 C 端用户。普通人对这东西没有强需求。真正愿意付费的是那些确实需要 3D 模型的人:不管你给他的是几百美金的硬件,还是昂贵设备,还是 app,本质都是卖给需要 3D 资产的人一个生产力工具。所以我们从 day one 定位就是服务专业的 3D 创作者(3D creators)。直到今天,我们都没有把 ToC 当成主线。至于为什么后来会出现 ToC 的机会,我们可以后面再聊。
而且元宇宙过去之后,投资人马上会问一个问题:how big the market?
Jane:你们早期怎么计算这个问题的?
Jack:我们当时做了一个估算,回头看还挺准。到今天也基本成立。KIRI Engine 的核心付费用户主要来自三个领域:第一是 3D 打印;第二是游戏开发者(尤其是需要 3D 资产的开发者、工作室);第三是 3D 艺术家(更泛,覆盖电影特效、渲染、动画等)。
这三拨人规模怎么估?3D 打印人群相对好估:我们估算全球不到一千万,大概八百万上下。因为 3D 打印机年出货量大概 100多万不到 200 万台,累积下来加上“老用户升级”的重复购买,真实用户基数不会像出货增长那样快,所以八百万上下是个相对保守的范围。
游戏开发者也好估:把 Unreal Engine(UE)用户、Unity 中做 3D 的用户加起来,我们估算接近一千万。
3D 艺术家更大一些:我们用 Blender 用户做参照。Blender 是非常通用的 3D 建模软件,很多 3D 艺术家电脑里都会有。Blender 用户量大概 1200 万左右,我们推算整体 3D 艺术家人群大概 1500 万上下,因为 Blender 覆盖率可能在 60%—70%。
三波加起来,我们能吃到的盘子大概不到 3000 万人。你说大,它肯定不大;但对 KIRI 这种公司来说,这个池子足够一条“小鱼”活得挺舒服,也能持续增长。这就是 KIRI Engine 早期的定位。
技术演进太快,唯一的护城河是把新东西做成产品
Aaron:从技术角度看,衡量一个 3D 重建方案是否成功,最核心的指标是什么?精度、成本还是速度?
Jack:这取决于使用场景,没有统一答案。我举几个场景你就能理解。
先说 3D 打印:3D 打印用户最不能妥协的是精度——也就是模型细节的呈现度。哪怕跑一个小时、两个小时都没关系,但模型必须足够精细,打印出来才好看。但在游戏行业就完全不一样。比如大家都知道的《黑神话:悟空》,里面有大量 3D 扫描资产,比如把山西的佛像以接近一比一的方式搬进游戏。这个过程很多不是手工建模,而是通过 3D 扫描拿到资产。
3D 打印追求的是几何细节:网格面数越多,细节越丰富,可能要上千万三角面才能表达衣服褶皱这种级别的细节。所以它把“网格面数”当成精度的直接代理。但游戏恰恰相反:网格面数太多会把渲染压垮。游戏要 60fps,要性能和功耗控制。如果画面里每个模型都有千万级三角面,帧数会很差,功耗很高,根本不可用。
所以游戏里通常要把网格降下来,同时用另一套指标表达细节:贴图精细度和法线精细度。因为游戏渲染依赖的是视觉细节,不仅仅是几何细节。贴图里可以有草、锈迹、细小纹理;法线贴图能模拟微小起伏。你把贴图关掉,只看 mesh,很多细节根本不存在;贴图打开,细节就“出现”了。
所以不同场景,对“成功”的定义差异很大:3D 打印更像“几何精度优先”,游戏更像“视觉真实度与性能平衡优先”。
Aaron:对 3D 打印这种强调精度的场景,哪些关键技术环节会决定上限?而游戏里你说的贴图、法线这些,又是哪些技术决定上限?
Jack:先说 3D 打印的几何精度。为什么大家会买 3D 扫描仪?因为高精度常常依赖结构光或类似手段。我给大家做个直观科普:比如一个扫描仪会发射一条“已知”的竖直线,打在墙上就是直线。但如果打在球体上,这条线会沿球面弯曲。你知道原本发出去的是直线,看到的却是弧线,你就能通过“弯曲程度”非常精确地推算出景深。这就是结构光扫描的直观原理之一,也是它精度高的重要原因。它用“已知光栅”去测距,所以非常准。
而 KIRI Engine 早期的 photogrammetry(摄影测量)路线完全不同。它不打光栅,纯靠相机拍照做重建,核心是 structure from motion(SFM,多视角几何)。它的原理类似人眼双目视差:两个眼睛看同一物体,物体在两眼视野里的位置会有偏移,大脑用偏移量估算距离。SFM 也是类似:你围着物体拍很多照片,先用特征点提取算法(比如 SIFT)在每张照片里找稳定特征点,再把同一特征点在不同视角下的位置偏移量拿来估算景深,进而恢复 3D 结构。
这种方法的局限也很明显:它强依赖“特征点”。纹理丰富(比如石头、树皮)时,特征点很多,效果甚至能接近结构光;但遇到纯色物体(比如白色耳机壳),几乎没有特征点,精度就会崩。这个时候你就必须依赖结构光那种“打已知光栅”的测距方式。
Aaron:你们在技术路线选择上,内部经历过哪些关键争论?有没有那种争议很大、但后来证明走对了的决定?
Jack:做软件之后,我们大体没走特别大的弯路。最大的弯路其实就是硬件那次。但转型那会儿,合伙人之间确实有不同声音:有人觉得辛苦做了这么久,说放弃就放弃,是否再坚持一下;也有人(比如我)觉得这东西肯定不 work,必须转,否则就死。还有一个争论是:未来到底是纯拍照的路线,还是依赖设备的路线?当时也没有完全一致。
最后能下决心,一方面是我们测试到算法可行;另一方面是软件本身更轻量,试错成本更可控,所以决定做 KIRI Engine。
我回头看,我对公司最关键的贡献其实就两件事:第一,毅然决然从硬件转软件,否则公司一定没有今天;第二,在元宇宙那波风口里拼命融资。当时合伙人也会担心:产品还没落地、估值又低,这么融资是不是飘了?是不是应该赶快做产品?但我们当时真的“穷怕了”,我就觉得:有机会融资就要使劲融。今天回头看,这个决策太对了。因为后来你会发现:能不能融到钱,很多时候跟产品好不好没有直接关系,更多跟风口有关。只要你不在风口上,产品再好也未必融得到。所以“在能融到钱的时候疯狂弄钱”,对我们来说是救命的。
Aaron:也就是说,你坚持路线,最终把其他合伙人也带过来了。
Jack:可以这么说。但我其实不太擅长用语言说服别人。很多时候我有 sense,有直觉,但我很难把它拆成一条条可量化的依据,讲得有理有据。我脑子里是把很多信息汇总成一个结论,它变成了“感觉”;但我不擅长把这些信息再拆回去讲清楚,所以说服力不强。一路下来确实是“感觉大于理性表达”。
Aaron:你是直觉很强的创始人。
Jack:我更愿意说它是信息汇总后的判断,只是我表达能力没跟上。
Aaron:KIRI Engine 早期是基于摄影测量(photogrammetry)和 NeRF 的能力,后来又加入了更多模式。当初为什么选择这条路?相比传统多视角重建,你们更看重它哪些能力?
Jack:最早(2022 年上线时),用手机拍照做 3D 重建,成熟可用的路线基本只有 photogrammetry,所以我们先做了它,这是当时的技术现实决定的。
后来我们发现 photogrammetry 有明显局限,比如对透明、反光物体重建困难。之后新技术出来:NeRF。我们发现 NeRF 在透明、反光这类场景更有优势。如果我们能把 NeRF 的表达再转成传统三角网格(mesh),那就能用 NeRF 去解决 photogrammetry 解决不了的问题,同时还输出可进入传统 3D 管线的 mesh。于是我们上线了“无特征点重建模式”,本质上就是基于一套 NeRF 转 mesh 的技术。
这个功能在 2023 年 3 月上线后,确实把我们和竞品拉开差距。当时很多竞品还停留在 photogrammetry,而我们能扫描透明反光物体、还能出 mesh,这在行业里传播很快。
我觉得这背后不完全是“我们选得多对”,更像是 3D 重建行业发展太快:2022 年主要是 photogrammetry,2022 年底 NeRF 起来,颠覆了很多渲染管线;2023 年底又有 3D Gaussian Splatting(3D 高斯)出来,再一次改变格局。行业推动技术快速演进,我们就不断把新能力工程化上线,满足更多用户需求。
Aaron:那你们团队为什么能比其他创业公司更快把这些技术工程化?优势在哪里?
Jack:我最近也在反思这个问题。按理说,厉害的团队多了去了,不一定应该是我们做得最快。但我总结大概有几条原因。
第一,我们判断一条技术路径有没有“未来”,这件事被锻炼得比较准。很多论文很火,但属于“障眼法”:能解决很多 corner case,在学术界很酷,但通用性短、落地难。我们会更谨慎地把资源投到更可能成为主流的方向上。
第二,我们团队迭代快。我们背景确实不“学术明星”,也没发过论文,但我们能找到有技术背景的人合作。KIRI 在行业里“人缘”还可以,因为我们没有派系,不是谁的门生,也不代表某个学校或老师,所以反而能和很多研究员、博士、科学家建立合作。很多关键技术(比如反光透明物体、3D 高斯转 mesh)都来自合作共研。我们看到新东西,通常能很快找到合适的人把它做出来、再尽快产品化。
Aaron:这两年 3D 生成、视觉模型、Transformer 架构也发展很快。你怎么看这些新范式和 3D 重建的关系?在新时代里,3D 重建的价值是什么?
Jack:这是个特别好的问题,我也一直在想。做 Remy,本质上就是我对“3D 重建与 3D 生成未来关系”的一次实践:3D 重建会不会被 3D 生成取代?我们无法精准预言未来,但可以用一个类比去理解:用今天的 2D 生成和 2D“重建”关系,映射未来的 3D。
2D 生成很好理解:Midjourney、Stable Diffusion。那 2D 重建是什么?其实就是拍照——把现实世界映射成 2D 影像。对应到 3D,就是 3D 重建:把现实世界映射成 3D。
那今天拍照和 Midjourney 的关系是什么?很简单:在生产力场景里,比如做海报、做封面图、做插画、做平面设计,AI 生成会持续替代,因为又快又好。但有一类场景 AI 生成替代不了:记录。你要发朋友圈、要合影留念、要记录“此时此刻发生的事”,你不会用 Midjourney 生成一张“我们三个人坐在一起”的照片,因为那不是发生过的事,它只是想象。记录与生成,在意义上是不同的。
所以我认为未来 3D 生成会越来越强,持续侵蚀生产力类 3D 资产的生成,比如游戏资产、打印模型、电影道具等。但“记录人与世界的关系”的需求,不会被生成取代——那是 3D 重建的价值所在。
Remy 就是在探索:普通人如何用 3D 讲更好的故事,用 3D 记录更有意思的记忆。Remy 最近的爆火,也在某种程度上验证了:至少第一步,这条路是可行的。
当 3D 从生产力迁移到生活:Remy 的第一性原理
Jane:回到 Remy,它和你们之前做 KIRI Engine 的第一性原理似乎完全不同,对吗?KIRI Engine 是生产力工具,Remy 的第一性原理更像“记录”。
Jack:对。Remy 探索的是普通人如何用 3D tell better stories;而 KIRI Engine 是帮助专业 3D 创作者更高效、更低成本地获得高质量 3D 模型。
Jane:那我是不是可以理解:KIRI Engine 这类工作,有一部分未来可能会被 3D 生成模型替代?
Jack:没错。我们做 Remy 的原因其实有两个方向都成立。
从下往上:当我们在 KIRI Engine 上线 3D 高斯泼溅之后,我们发现即便 KIRI Engine 定位很“工具”,用户已经开始出现大量“记录行为”。过去用户更多是做游戏、做打印、做电影特效的专业人群;但用 3D 高斯的用户,会用它记录生活:今天去迪士尼,明天带爸爸去旅游,后天去参观某个艺术工作室……你会发现“记录”已经在工具里发生了。只是 KIRI Engine 里有很多专业参数、专业模式,普通人不需要。于是我们做一个新产品,把“记录”这条线抓住:把体验做得清晰、不 confusing。
从上往下:我们也认为未来生产力场景会越来越多被 AI 生成替代,这是趋势。假设 scaling law 继续成立,生成能力会持续变强。所以我们判断更大的 3D 机会在 C 端,而不是 P 端。
Jane:用 3D 重建来记录,相比照片、视频,它不可替代的核心价值是什么?它能提供什么新的价值?
Jack:我觉得最本质的是“信息密度的升维”。说得更具体一点:人类的信息载体一直在升级。BP机时代是文字;后来有电话,信息更即时;再后来有照片,从文字到图像是一种信息密度跃迁;视频把时间加进来,信息密度更高;直播把“实时性”加进来,又是一种提升。
站在今天想:视频和直播之后,下一个信息密度提升的形态会是什么?如果人对更高信息密度的追求不变,那我很难想象除了 3D,还有什么能承载更高的密度。3D 不是“更清晰”,而是“更完整”:你能从不同角度看到更多细节,能把空间本身变成信息。
举个 Remy 的例子。我们看到一个用户在日本徒步,森林里藏着很多很小的佛像(半米高那种),非常原生态。他用 Remy 记录下来。你打开它第一眼像照片,但你用手指一滑,佛像转到背面,你会看到完全不同的信息:比如佛像后面有个给小松鼠放食物的小碗,里面还有坚果。这个细节如果只是照片,很可能永远看不到;但 3D 把它还原出来了——你只是轻轻一转,就进入“照片看不到的那一面世界”。这就是信息密度带来的震撼。
3D高斯泼溅 - 3D内容能够带来更直观的交互体验
基于这些定义,我们做了很多工程和算法优化,也做了妥协。比如 KIRI Engine 跑 3D 高斯可能要 20 分钟,但 Remy 做到 5 分钟。时间更快,质量必然会损失,所以我们在速度、体积压缩、加载体验上做了大量取舍。KIRI Engine 不会优先考虑“体积小到像打开视频一样丝滑”,但 Remy 必须这么做。
Jane:如果未来你们要做 iOS 端,技术迁移成本高吗?
Jack:迁移成本很低,因为所有计算都在云端。手机端本质上就是拍照工具,所以做鸿蒙、苹果、安卓差异不大。
Jane:苹果手机有激光雷达,那是不是自带 3D 扫描功能?
Jack:只有 iPhone Pro 有激光雷达。没有那个“小黑点”就没有。而且很多人误解激光雷达对 3D 重建的帮助:激光雷达主要是测距,精度大概毫米级,可能五毫米左右。对高精度 3D 扫描来说,这不够——很多 3D 扫描希望做到 0.05 毫米级,甚至更高。所以激光雷达更多是辅助,让计算更快一点,但对“本质精度”帮助没那么大。
Jane:如果有一天苹果相册里直接有 3D 功能,会怎样?
Jack:我先插一句:鸿蒙 10 月 28 号更新的版本,鸿蒙相册左边已经有 3D 展示功能了。Remy 是目前唯一能把 3D 重建内容存进鸿蒙相册的 app,华为已经在做这件事。
至于苹果会不会做——我觉得手机厂商入局迟早是共识。如果厂商入局,Remy 的机会就不在“重建端”,因为重建会被入口挤压:拍照太简单了。那时 Remy 的机会在“出口”:用户会产生大量 3D 内容,但能分享到哪里?小红书只能发图文视频,抖音是短视频,都不是 3D 原生。如果 3D 成为共识,真正稀缺的是一个 3D 原生的社区/平台,让用户分享、炫耀、讲述自己的 3D 故事。那时我们就做平台,而不是继续死磕重建本身。
Jane:你们一个月 150 万用户,已经有正反馈。但另一个问题是:3D 内容 ToC 是否真的跨过临界点,成为大众会用的东西?你怎么看?
Jack:现在绝对没有跨过鸿沟。原因两点:第一,3D 重建门槛比拍照、拍视频高——你要围着物体拍一圈,这是天然劝退;第二,即便你愿意做,3D 最终质量在清晰度上还是比照片视频差。因为这两点,今天它还不是大众工具。
但有意思的是:Remy 把 ToC 这件事抛出去后,我们看到用户积极回应,说明需求在,只是技术还没完全满足需求。所以接下来我们要做的就是两件事:让 3D 重建更简单;让模型质量更高。只要这两件事持续改善,ToC 就会越来越成立。
Jane:有一个关键点:围着拍一圈似乎是必须的,但技术上有没有可能不必这样?
Jack:围着拍一圈的本质,是你要捕捉物体一圈的信息,尤其是背面信息。你没拍到背面,就只能靠想象;但想象不是记录。
但从原理上讲,不一定要拍一圈视频。只要有三四张覆盖不同视角的照片,你就可能重建出足够的信息,这就是“稀疏视角 3D 重建”。如果未来能让用户随手拍三四张就完成重建,门槛会远低于现在。这也是我们最近在做的方向之一。
Jane:也就是说,如果真的做到“拍几张照片就像拍照一样简单”,那可能是平民化的关键门槛?
Jack:是的。但这说起来简单,但我开玩笑说,这是 billion-dollar question——需要花十亿美金解决的问题,技术上非常难。
Jane:目前圈内对 Remy 的反馈,认知度挺高。你觉得它已经是 3D 重建 ToC 的标志性产品了吗?
Jack:从用户量角度,我觉得算标志性的。我们破 100 万用户用了 9 天。那天我还专门搜了一下:Sora 破 100 万用户用了 5 天,我只比 Sora 慢 4 天。这种速度确实是现象级的。
但下载量只是一个维度,还要看留存、月活等。这里有个有趣的数据:现在 Remy 每天新增用户大概是几万人,已经不像最夸张时一天几十万那样。用户每天建模数大概是新增用户的三倍,平均每个用户建三四个、四五个模型,并没有想象中那么夸张。
但更有意思的是:Remy 的 DAU 是每日新增用户的十倍。这说明“看 3D 内容”的门槛,远低于“做 3D 内容”的门槛。很多用户很喜欢看。
我甚至觉得未来可能会像抖音:不是每个人都会高频产出,但会有一批更会创作 3D 的人做内容,然后被更多人消费。3D 重建有门槛不可否认,但 3D 内容消费的门槛低很多,这是一个很重要的信号。
Aaron:你们 9 天到 100 万用户,怎么做到的?
Jack:我们完全没有投放,零买量,没有花一分钱。全部来自产品自传播(PLG)和用户自发扩散。关键在于:Remy 很酷,但酷不等于能传播。传播必须靠“分享”,而 3D 原生内容很难直接发到抖音、小红书,因为那些平台是 2D 内容结构。你必须把 3D 转成视频才分享得出去。
所以我们做了一个功能,叫“实景特效视频”。它试图把 3D 信息压缩进视频里:你分享出去的是视频,但它带着 3D 才有的光影、空间重构效果,这种东西普通视频做不出来。用户觉得“没见过、太酷了”,就会发出去,于是全网扩散,Remy 才被点燃。
Remy的“实景特效视频”让3D内容秒变“特效大片”
Aaron:那目前 Remy 怎么商业化?
Jack:我们其实没把 Remy 的第一目标设为商业化。KIRI Engine 的商业化很直接:生产力工具提效,用户付费合理。但 Remy 的使命更像“培养用户用 3D 记录的习惯”。如果使命是培养习惯,就不能把商业化做得太重,至少不能把用户拒之门外。
不过我们最近确实上线了一个机制:重建需要消耗 token,我们叫“光粒”。新用户会送 100 个 光粒,用完不充值就不能重建,这是一个商业化锚点。但与此同时我们也上线了签到系统:每连续签到 7 天送 210 个 光粒。210 个光粒 对应的成本大概 30 块钱左右,也就是说我们每周“补贴”用户去重建。对 90% 的用户来说,这足以做到“免费重建”,不需要额外付费。
我这么做目的不是为了立刻挣钱,而是为了养成用户每天用 Remy 的习惯,并让 Remy的光粒 有一个明确的价值锚点。等我们把用户习惯培养起来——比如明年年底做到 1000 万用户、100 万 DAU——那商业模式会非常多:品牌店铺的 3D 展示、餐馆的 3D 空间、各种 3D 原生广告与交易形态,都可以展开。但前提是先把“3D 记录与消费”的习惯培养出来。
Aaron:我感觉很多 C 端自来水用户并不是把它当生产力工具,而是当玩具、当社交货币来用。你们发现这种变化后,怎么调整产品定位和营销策略?
Jack:我觉得今天很少有 app 真正解决“刚需”,多数是锦上添花,更多服务情绪价值和社交属性。接受这一点之后,你就会发现 Remy 要解决的核心变成:怎么让它更好玩、更新更有趣。
所以我们会不断上线新模板、新实景特效,让同一个 3D 模型能生成不同风格的视频,用户就能再发一波朋友圈。因为“只有你有、别人没有”,这就是社交传播的动能。下一步我们也会做更游戏化、更酷炫的东西,让用户持续觉得“3D 还能这样玩”。
Aaron:你觉得 Remy 的长期护城河是什么?用户起来之后也会有人抄。
Jack:护城河一定在技术迭代上。因为 Remy 这类产品跟一般 C 端产品不一样:你每一次功能更新都需要大量底层技术验证。比如你要做场景级重建,就要解决 inside-out 的拍摄方式、过去无法闭环的重建问题;要在用户可接受的时间内跑完;模型是场景级的,你还要解决手机端渲染、加载速度、丝滑打开体验。这些都需要长期的 3D 技术积累。不是有互联网产品思维就能做出来的,它对团队要求非常综合。
Jane:听下来,你对 Remy 的终局想象更像一个内容平台甚至社交平台,对吗?因为把 3D 压成视频再去抖音、小红书,本质还是绕了一道。
Jack:对,绝对是平台。我们前面聊过:3D 是更高维的信息密度,人对信息密度的追求不会变。现有社交平台基本是 2D 结构搭起来的,如果 3D 真的成为一个新的主流内容形态,就需要 3D 原生的平台去承接它。历史也类似:短视频起来后,本来以为是 Instagram、Facebook 承接,结果是 TikTok 这样的新平台出现。新内容形态往往由破坏式创新的新公司承接,而不是老平台自然接住。所以如果 3D 原生平台有机会,它是 Remy 的机会。
Jane:我们也看到不少创业公司尝试做类似的事,过去几年中国并没有出现特别出圈的新社交平台产品,所以很多人会怀疑:在抖音、小红书之外,真的还有软件机会吗?
Jack:这就是非共识,而非共识本身就是机会。大家质疑,我们坚持做;如果做对了,我们会把后来者甩得很远。
融资、团队与目标函数:一家 3D 公司的现实生存法则
Aaron:回到融资和团队。你们经历了四轮融资。我想了解:融资过程中投资人最常质疑什么?你们怎么回应?
Jack:最常被挑战的问题很简单:3D 行业到底有多大。过去很难回答,因为 3D 确实小众。但很幸运,Remy 跑出来之后,这个问题不需要用同样方式回答了。看到 Remy 的第一步成功之后,大家才愿意相信 3D 有 ToC 的可能。当然我们也会告诉投资人:这是一条很长的路,需要持续优化产品与技术。
另一个挑战是团队。KIRI 团队很“奇葩”,简历没有明星光环。你把我们跟任何一个团队比,可能都比不过。但你会发现,在过去几年里3D 行业不妨有很多大咖下场创业,但很多同行被我们熬死了。为什么最后是我们走到现在?可能不是某一项单点技术最强,而是我们的综合能力——尤其是把新技术快速工程化、快速产品化的能力。KIRI Engine 从 2022 年上线到现在,每年收入和用户都翻倍增长。投资人问“你们团队优势在哪”,我就用这个事实去回答:你不一定要用简历去定义一个团队,可能要用它在复杂环境下持续兑现增长与迭代的能力来定义。
Aaron:咱们现在团队多少人?
Jack:现在 20 多个人。其实 KIRI 从前面开始人数就没怎么变。
Aaron:这是一个稳定的团队。你刚刚说你们简历不耀眼,我很好奇:你招人看什么?什么样的人适合你们团队?你最看重的点是什么?
Jack:首先,招人不可能百分之百看准。总体我们会看三点:学习能力、自驱力、情商。只要这三点过关,我觉得就能进入团队。但“人数没变”不代表“人没变”,人其实一直在变——一直在被筛,一直在淘汰、一直在招新的,然后不断把血液换到我们认为真正符合这几个条件的人为止。我们不愿意盲目扩张,但会持续迭代团队的质量,让它能跟上我们想做的事情的难度。
Aaron:技术这个东西变化真的太快了,可能一年一变,甚至半年一变。站在现在这个时间点,你是怎么去想未来的?先说近一点,明年 KIRI 的目标是什么?再往后看,三到五年,你希望公司能走到一个什么样的阶段?
Jack:我们的目标其实非常简单,甚至可以说是特别简单、特别粗暴的那种。明年,我希望 Remy 能做到一千万用户,做到一百万 DAU。这个,就是我对明年最直接、最明确的目标。
为了达成这个目标,其实我需要把两个问题回答得更好,也需要承担起把这两个问题真正解决好的责任。第一个问题是:3D 空间怎么才能被做得越来越简单,让更多人不用学习、不用理解复杂概念,就能自然地用起来;第二个问题是:3D 空间的质量,怎么才能持续变得越来越好,不只是“能看”,而是真的值得被记录、被保存、被分享。这是我明年最核心的目标。
再往后看,三到五年的目标,其实也很清楚。简单来说,我希望能聚拢一批人,让大家真正去体验 3D 记录、3D 叙事所带来的那种独特乐趣。说得更直白一点,我想把这样一个平台搭起来。
它当然不可能去替代小红书,也不可能替代抖音。但我希望它能存在于小红书和抖音之外,成为另一种选择。它是一个能给用户带来不一样心理体验的平台。大家在刷完小红书、刷完 2D 内容之后,可以来看看 3D 内容。因为 3D 的体验,和看 2D,本质上是完全不同的。
这件事就是我希望在未来三到五年里持续去做、去回答的事情——how people can tell better stories in 3D。这是一个我希望不断去探索、不断去逼近答案的问题。
Jane:非常感谢 Jack。以上就是今天《ya!ya!》的全部内容。
Jack:谢谢。
参考文献:
[1] https://www.theinformation.com/articles/deepseek-release-next-flagship-ai-model-strong-coding-ability?rc=sp92ul