当 AI 学会吉卜力美学,动漫产业的下个十年将迎来巨大变革。吉卜力的细腻画风、温暖情感和深刻内涵将与 AI 的强大创作能力相结合。AI 能以吉卜力的风格创作出海量新颖的作品,丰富动漫的题材和形式。它可以快速生成充满想象力的场景和角色,让观众沉浸在奇幻的世界中。同时,AI 还能根据不同观众的喜好进行个性化创作,满足多样化的需求。这不仅将推动动漫产业的发展,还能让更多人领略到吉卜力美学的魅力,为动漫爱好者带来全新的视听盛宴,开启动漫产业的新纪元。
面对汹涌的AI浪潮,动漫产业正处于技术的十字路口。
一方面,产能瓶颈与市场需求的矛盾已成为动漫业痛点——顶级工作室档期排到两年后,大量制作仍依赖“工匠精神”主导的传统手绘,产能紧缺。另一方面,AI技术正迅速融入传统动漫制作流程。
Google的Veo 3、OpenAI的Sora以及可灵AI、海螺等等视频大模型每周迭代,从关键帧生成到风格转换的技术探索层出不穷。然而,AI在动漫领域的技术落地仍存在多重壁垒。
在产业如此供需失衡的背景下,AI正如何渗透进动漫制作?AI生成视频的稳定性、逻辑连贯性难题,能否被攻克?谈及创意生产与行业伦理,AI又给动漫产业带来何种冲击?
带着这些问题,Azuki内容负责人、前Google Brain工程师天宇(二月茶)在今年五月亲赴日本深度考察。本期《硅谷101》,主播泓君对谈天宇,从他的亲身感受出发,聊聊AI技术在动漫制作中的应用情况、技术瓶颈和潜在影响。当AI学会吉卜力的分镜美学,动漫产业的下一个十年将在何处落笔?
以下是这次对话内容的精选:
一、动漫产业现状:供需的历史性撕裂
泓君:能否简单介绍一下Azuki?为什么你每天的工作会把大模型生成和日本动漫产业结合在一起?
天宇:Azuki是我们在2022-2023年的Web3叙事热潮下创立的。它是NFT与动漫结合的品牌,整体采用二次元风格,所以从那时起就与动漫结下了不解之缘。我一直对动漫有很强的兴趣,当时通过各种机缘巧合参与到Azuki中,现在在Azuki负责整个内容开发,尤其是动漫方向的制作。
泓君:你们打算做成类似动漫连续剧还是动漫电影?这两种叙事逻辑差异挺大的。
天宇:我们目前认为最佳方案是从动漫剧集入手。作为动漫迷,漫画和剧集仍是接触IP最直接的方式。我们对动漫电影感兴趣的原因在于其生产周期相对更短。如今动漫剧集在全球大火,尤其是日本、美国乃至中国,产能都严重供不应求,仅等待顶尖工作室的排期就可能需要两三年,加上制作本身高度手工化,如果从零开始制作一部动漫剧集,时间线很容易拉长至四五年。而动漫短片和电影的制作周期相对更短。
泓君:所以做动漫电影比剧集还要简单些。
天宇:在动漫领域确实如此。
泓君:动漫剧集通常是具有较长连续故事线的作品,可能有多季。假设制作一季,大概需要多长时间?
天宇:一季12-24集的内容,目前纯制作周期约三年。但问题在于,顶尖工作室几乎没有空闲档期,全球优质生产线的排期基本都要等到两年后,这导致新动漫项目的投资很可能要五年后才能见成效。
泓君:为什么会出现全球排期爆满的情况?是因为动漫又火起来了,受年轻人喜欢吗?
天宇:这个问题很好。我认为一方面在于供给,一方面在于需求。需求层面其实很简单,动漫属于相对年轻的媒介,八零后、九零后这代人是看着动漫长大的,如今他们已成为消费主力。同时,新一代消费者如Gen Z(约1997-2012年出生者)、Gen Alpha(约2013-2025年出生者)也是在动漫陪伴下成长的。
虽然在内容娱乐领域,动漫起初可能处于边缘地位,但因为它有独特的审美体系,所以许多在它陪伴下长大的人会持续关注动漫,美国、中国、日本都存在这种现象。包括周边、播放、流媒体等各类形态在内的全球动漫市场,基本保持每年10%以上的增长率。无论从哪个角度看,这都属于相当快速的增长,尤其在偏向手游或潮玩的游戏领域,市场成长速度可能比我们想象的还要快。
天宇:供给层面也是一大难题,因为动漫制作是高度手工化的过程,比很多人想象的更具劳动密集型特征。大家下次看动漫时可以留意一下片尾的职员表,每一集的职员表都很长,其中还有许多专门负责具体环节的外包公司,而这些外包公司展开来看,很多都是几百人的规模。即便在这种情况下,目前可能有30%-40%的动漫制作仍在纸张上进行。
泓君:所以你刚才说的手绘是30%-40%?电脑绘制可能也占60%-70%?
天宇:不,手绘指的是人用手绘制,其中的30%-40%可能仍在纸张上进行,电脑绘制也属于手绘。但动漫行业的工业化、集约化和数字化程度比我们想象的低很多,更像是日本匠人精神主导的小作坊,类似几人的小团队经营一家精品拉面店的模式。正因如此,日本很多动画公司在营收和团队规模上存在各种问题,所以动漫行业的绝对供给实际上受到人才、管理体制甚至技术的制约。由于供需之间存在巨大错位,导致现在很多资本方,包括我们作为IP方,虽然看到全球动漫兴起的趋势,但产能集中在少数国家,且扩张速度缓慢,这就造成了强烈的排期现象。
传统派:不稳定、不可控,AI补帧的效率悖论
泓君:能否简单介绍你聊过的几类AI+动漫公司,再从制片人角度分析可行性?
天宇:这次接触的公司大致分为三种类型:第一种是传统动漫工作室,先做动漫再考虑融入AI,比如飞碟社、MAPPA、MADHOUSE等。这些工作室当下最希望通过AI提升生产线效率,因为排期饱和状态导致它们心有余而力不足。实际上,主流顶级动画工作室都在关注AI技术。尽管由于AI对于艺术家来说是个特别敏感的话题,它们对外宣发较少,但它们看到了潜在的技术应用场景,也是很激动的。
泓君:它们真的有行动吗?
天宇:有。动漫生产流程相对标准化:从故事脚本、角色设计到故事版,再到原画(包含一元、二元),然后中间帧动画和背景同时制作,再搭配音乐、配音及后期调整。工作室最希望能用AI优化流程中的某些环节去提升效率。
以中间帧制作为例:比如一个人喝咖啡的动作,关键帧可能只有“拿起杯子”“送到嘴边”“喝完咖啡后的状态”三张原画。如果直接播放这三张,会显得动作很撕裂,让观众觉得“跳帧”,所以我们需要补中间帧让动作更流畅。如果有细节特写的镜头,补帧量会更大。
在动漫行业,中间帧与关键帧的绘制通常属于两个不同步骤。关键帧绘制被普遍视为极富创造性的工作,而中间帧绘制相对枯燥,是动漫行业新人最先接触的工作内容。因此,当人们思考AI能否助力提升产能时,中间帧绘制往往成为首个设想的应用场景。
泓君:这一需求相当于给定两张原画,由AI根据原画生成中间的一系列动作。这其实是“图生图”。
天宇:对。从技术角度上说,这个过程好像不是特别困难。无论在美国还是国内,高校和企业都时不时针对关键帧生成发布突破性论文,几乎每一两个月就能看到相关技术进展。
泓君:哪些公司在关键帧技术上表现突出?
天宇:实例很多,比如 B 站研发团队几周前就发表了很不错的论文,美国一些独立科研团队也取得了不错的成果。但“理想很丰满,现实很骨感”。我们这次参观的工作室都试过用AI辅助中间帧生成,问题就出在效果不够稳定——最关键的就是“够”字。到底多稳定才算能用?标准特别玄妙。
泓君:能不能用刚刚“喝咖啡”的例子来解释什么叫“够”?
天宇:假设一个人穿夹克,动作里夹克会有褶皱,手可能有光影变化,戴着手套的话,手套有纹理,咖啡杯上还有图案。这时候AI生成的关键帧可能90%看着没问题,但5%到10%的差错就会严重影响流程。这不仅是物理逻辑的问题,更是创意层面的问题,因为动漫本来就没追求每帧都符合物理规律,而是要在创意范围内可信又好看。比如夹克褶皱突然出现又消失,播放时观感就很奇怪——袖子上到底有没有东西?
泓君:观众可能还会联想到是不是跟剧情有关系。
天宇:对对对,尤其是像动漫这种媒介,因为每一笔都是人画的,尤其大师作品每个细节都有深层思考。
泓君:AI生成的不完美细节,很容易被观众当成剧情铺垫去过度解读。
天宇:这绝对是一个很大的原因。更核心的是,动漫里的夸张动作本身就是导演和动画师的美学表达,不是真实物理世界的复刻。AI要是在5%-10%的细节上处理不好,改起来不一定容易,比如在衣服上加几笔褶皱就挺难的,比我们想象的麻烦。这也是为什么大家觉得AI生成关键帧看着不错,但实际上“足够可用”的标准特别高。比如用AI生成喝咖啡的10张关键帧,每张看着都还行,但每张不同地方都有5%的误差,这10张都得交给作画监督和原画师审查,真的节省时间吗?有时候可能还不如自己画来得快。
泓君:95%的10次方,这个正确率最后可以算出来的。
天宇:对,算下来发现AI好像也没有那么大的帮助。这还牵扯到生成模型的问题:如果找10个实习生画中间帧,至少能详细地告诉他们错在哪儿,还能一起开会讨论修改方向。
泓君:但是AI很难做到可控生成,比如想让它去掉衣服褶皱,它可能改的不是指定位置,或者依然重复出错。
天宇:这就是细节里的“魔鬼”。如果是10个实习生,至少能保证每次交稿都在进步,但AI不一定。即便用Mask技术(掩码,一种深度学习技术,让模型专注于重要数据,而忽略无效或不相关的部分),让AI准确率从90%优化到95%再到100%,这个过程未必比人工快。
它和好莱坞特效制作是一个道理。比如拍车爆炸,这个爆炸有多大?是否产生烟雾?是什么颜色的?产生的碎片该往哪些方向飞?这些在很多导演心中都是相当重要的细节。现在AI很难做到这种精细控制。这其实还是回到“够不够好”的标准问题:当技术对细节的把控达不到创作需求时,就很难真正替代人工。
颠覆派:以AI为中心,“缺了夸张美学”
天宇:刚好借此聊聊第二类公司——完全抛弃传统动漫工业流程,以AI为核心重构制作体系的创业公司。这类团队可能缺乏动画制作经验,但他们不是用AI优化现有流程,而是从零开始围绕AI设计全新生产逻辑。
比如中间帧用AI制作难度大,那就干脆不做中间帧,或者采用全新的中间帧制作方式。我们之前聊到一家叫KAKA Creation的公司,他们今年推出了一部约30分钟的动画,声称95%内容由AI生成。当时这个项目在网上引起了轩然大波,刚好又是在OpenAI把照片吉卜力化的风口浪尖上。
这家公司规模很小,团队大概只有10人左右,还处于初创阶段。他们觉得视频生成模型很有潜力,就想从零开始尝试。KAKA Creation的关键帧和中间帧中,有很多是通过动作捕捉完成的——让真人表演,再用AI把真人动作转换成动漫风格。
泓君:它是把人演的视频捕捉下来,还是说图像捕捉下来,再把它导入到大模型里,做成动漫吉卜力风格?
天宇:还是用刚才的例子吧。他们的思路是:既然AI直接生成画面存在明显缺陷,那就先录制真人拿起咖啡并喝一口的视频素材,再把素材导入AI模型,转换成动漫风格。
泓君:你觉得做得怎么样?打多少分?
天宇:10分制的话,给6-7分。从纯动漫制作角度看,这个分数确实达到了及格线,但不算高,能明显看出是AI制作的。它和传统动画相比,在表现力和美学设计上还有差距。
泓君:举一个例子,美学上的设计差在哪?
天宇:比如说,传统动画制作中,无论是3D还是2D模型,都需要一帧一帧绘制动作,甚至要手动调整3D角色的姿势;而动作捕捉直接让真人表演,效率确实更高。但问题在于,动漫往往追求更夸张的表现力,这是一种美学追求。用动作捕捉生成动漫时,经常出现动作僵硬的问题——因为捕捉的是真人自然动作,不够夸张,缺乏艺术性。
泓君:我懂了,就是它不够夸张、不够有艺术性。
天宇:对,它不够夸张、不够有趣。因为我们实际上一天到晚看的周围世界就是很真实的世界。如果我真的喜欢这种风格,为什么不去看真人电影?
泓君:就像真人笑的时候嘴巴弧度有限,但动漫里可以把眼睛画得很大,嘴巴一直延伸到耳根,这种夸张感很有趣。
天宇:比如哆啦A梦的经典表情,嘴笑得那么大,眼睛都眯成一条线了。但用动作捕捉来实现这种效果会遇到技术难点。所以动捕也好也坏,本质上是一种美学层面的取舍。KAKA Creation的案例就体现了这一点。
泓君:但我觉得这也是一种挺好的思路。
天宇:比如背景通常也是手绘的,现在可以不用画,直接拍张照片让AI转风格。尤其是静态背景,不那么容易穿帮。
泓君:那这是不是已经构成了传统动画产业链的一个环节——至少背景空镜头可以用AI做?
天宇:很对。比如Netflix改编手冢治虫的《PLUTO》时,就公开说过在背景制作中引入了AI生成技术,这确实是一个很实在的落地场景。不过它对实际效率的提升效果不好说,因为背景制作在动画流程里相对独立,画人物动作比画背景复杂得多。
泓君:成本占比也不一定高。
天宇:当然也有例外,比如新海城这种“背景狂人”对背景的精细度要求极高,AI目前达不到那种水准。但绝大多数动画的背景制作确实能用AI辅助,这也是未来很多工作室可能探索的方向,只是它解决不了动画制作的核心瓶颈。
折中派:ChatGPT当助理,AI分担导演负荷
泓君:刚才聊了两类公司:一类传统工作室对AI探索还一头雾水,另一类完全用新逻辑做动漫。有没有中间派?
天宇:有个特别有意思的案例:一家传统动画工作室尝试给导演做“ChatGPT助手”。他们把导演过往的故事板、修改建议、脚本等素材输入ChatGPT,让它模拟导演对新项目做评估,没想到这真的有用。尤其是对于大项目导演,他们的工作量远超个人处理能力:所有环节的审美把控、故事板、脚本、风格、色彩、动作时序都要过目,根本不可能逐帧修正。所以导演会组建信任的团队,比如依赖原画师和修正的专职人员,但团队成员一旦掉链子,就容易“作画崩坏”。而导演作为总筹划,精力有限,需要处理的反馈太多,而这个AI助理就帮他们分担了部分评估工作。
泓君:这个想法非常棒。
天宇:所以他们的思路是给导演做一个ChatGPT虚拟助理,当某个环节需要导演反馈时,先让ChatGPT过一遍,比如ChatGPT指出问题,导演再判断建议是否合理。他们试验后,导演觉得效果不错。其实动漫行业的导演和制片人对AI普遍持开放态度,因为他们确实常面临“心有余而力不足”的情况。
泓君:AI能帮导演抠每一帧吗?给的建议靠谱吗?
天宇:AI未必能逐帧优化,但在关键节点上,哪怕只能帮40%-50%也很有用。比如导演每天工作8-12小时,真正能聚精会神修改的关键点可能不超过10个,如果AI能让每天处理的关键点增加到15个,就是巨大的成功。
泓君:那么从日本回来后,你对如何做动漫,以及是否使用AI工具的观点有改变吗?
天宇:改变挺大的。大家对AI更欢迎,也更相信它的潜力,但AI作为工具嵌入生产流程时,仍存在细节上的“魔鬼”。
泓君:听起来,你反而对AI的态度更谨慎了?
天宇:是的,但另一方面,我看到了很多以AI为核心的小团队实验,也觉得很兴奋。人类对艺术创作的追求是永恒的,从上万年前在洞窟中绘制壁画就开始了。这次从日本回来后,我更思考:如果把AI作为创作工具,是否会产生新的可能?比如动漫中因制作难度大而很少出现的复杂华丽服饰——这类服饰的动态绘制需要大量人力,但如果用AI辅助,能否实现以前做不出的效果?
泓君:我能想象一些场景,比如激烈的打斗场面还是需要复杂的服饰来增强视觉张力,或是塑造王者形象时,华丽的服饰是体现角色气场的关键元素。
天宇:是的,比如中世纪骑士的盔甲,结构极为复杂,如果完全依靠手绘呈现每一处精密细节,不仅耗时漫长,制作成本也会大幅增加,可能得不偿失。类似地,身上佩戴大量挂饰或铃铛的角色在现代动画中也较为少见。但如果有AI技术辅助,这些曾经因制作难度大而被舍弃的设计,会不会产生新的创意可能?我对这一领域非常期待。
与此相应的还有动漫的上色方式。如今多数上色流程仍类似大家小时候玩过的 Windows涂鸦工具中的油漆桶功能——画个圈,点击一下就能突然改变颜色。
泓君:你不觉得这就是人类重复密集劳动的部分吗?
天宇:这是技术与创意产品之间的一种微妙关系吧。
泓君:这就是我们最想交给AI去做的。
天宇:对。技术的限制往往会催生特定的创意形态。以希腊雕塑为例,大理石材质本身构成创作限制,加上当时颜料技术极不成熟,多数颜料难以在历史化学反应中保存,导致我们现在所见的希腊大理石雕塑多呈白色。而这种技术限制在后来的新古典主义时期反而被赋予审美价值,白色成为一种艺术特色。当人类对材料的控制技术取得突破,比如塑料化工技术发展成熟后,变形金刚玩具、哆啦 A 梦手办等动漫周边又诞生出全新的美学可能与生产体系。
我希望AI的价值不应局限于将现有创意流程自动化,它最美妙、最有趣的意义在于:能否借助这一工具,实现过去因技术瓶颈而无法企及的创作可能?如果以这样的愿景看待AI与文化艺术的融合,未来人类与AI在创意领域或将迎来非常令人期待的、百家争鸣、百花齐放的理想状态。当然,在此过程中,每一位具体艺术家在创作中的核心作用仍需被重视。
三、动漫AI变革之困:有突破,但还“不够好”
泓君:现在视频模型能生成的最长视频是多少秒?
天宇:目前很多模型的生成时长都在10、15、20秒的区间。如果继续延长,确实会面临两方面问题:一是刚才提到的稳定性问题,二是产品与市场需求的匹配度问题。因为如果生成更长的视频,观众可能不愿意观看。想想我们平时看的影视作品,很难接受一个人持续做一件事长达一分钟,尤其在没有上下文故事的情况下。
泓君:我上次在Google发布会上试用了它的Veo 3,当时输入的prompt是生成一个复杂场景:一只小松鼠和一只猫在山坡上奔跑,穿过树林,越过一座桥,最后到达山顶,桥的两侧有彩虹,还有风吹动。但生成的连续奔跑过程中的场景变化效果并不理想,画面跳转严重,逻辑衔接也很奇怪。
天宇:感觉像在做梦一样,对吧?
泓君:这个描述太准确了。比如从桥到山顶的中间没有任何过渡,是画面切换过去的。
天宇:然后画面中的各种元素开始出现不可思议的形变。这确实与我们刚才谈到的稳定性密切相关。如果真的要将它应用于创意产品,内容至少要具备合理性,除非刻意追求梦境般的效果。目前来看,20-30秒的生成时长算是比较长并且相对稳定的。如果要生成一分钟以上的内容,一方面需要为模型提供更详细的情节,另一方面,模型难以在逻辑层面准确复现脑海中的情节,这仍是待解决的难题。
泓君:当前AI视频生成的最大问题是什么?
天宇:最大的问题就是“不够好”这三个字,所有的关键都体现在“够”这个标准上。我之前在网上看到一些很感人的个人应用案例:有人将已故家人的照片交给AI,生成10秒左右的动态影像。
泓君:这种场景在声音模型中特别多。作为播客从业者,我注意到现在各厂商的声音模型竞争激烈,我就常看到评论说“我把妈妈生前的语音喂给模型,就能听到她的声音了”。
天宇:对,很感人。这类应用的意义不在于生成多精美的视觉产品,而在于通过技术重现与亲人的记忆,实现“有胜于无”的情感价值。但如果目标是让AI在日本动漫、剧集、好莱坞电影等工业化场景中发挥关键作用,“够不够好”的标准就会衍生出诸多细节“魔鬼”。目前来看,稳定性和可控性是两大核心挑战。
泓君:现在它们生成人物的时候,眼睛还会恐怖吗?我们在这些视频模型刚发布时用过它们,那时生成的人物状态很恐怖,像迪士尼最开始的动漫一样,眼神空洞。
天宇:现在这个问题基本解决了,手的稳定性也有巨大突破,过去常出现多根或少根手指的情况,现在几乎不会穿帮,这是技术上的重要进步。
四、AI动漫的未来博弈:潜力释放与伦理红线的拉锯
泓君:你如何看待AI配音?我发现语音模型的发展速度最快,效果最好,可控程度也比较高。比如在动漫领域,刚才我们讨论的都是画面环节,其实配音和配乐环节同样值得关注。
天宇:这涉及到一个让我非常忐忑的话题。语音生成确实比视频容易太多,从生成质量来看,目前多数尖端模型的表现已与真人无异。但语音生成也牵扯出一个复杂的问题:AI与人类创作者之间究竟是怎样的经济关系?
泓君:让你感到忐忑的是什么?
天宇:这次在日本与一些导演、配音演员和声优交流时发现,日本声优有自己的协会,近几个月来,多位知名声优公开反对AI,拒绝将自己的声音用于模型训练,也不允许AI模仿他们的声音。我很认同他们的观点:对声音的训练和表演是声优赖以生存的职业,一旦声优被替代,他们的职业价值、创意表达和生计都会受到直接冲击。
泓君:日本还有声优工会,但很多国家没有,情况更为复杂。
天宇:如果讨论经济层面,这确实是深刻且棘手的问题。对画师而言,AI还能被视为工具,但同样的逻辑放在声优身上就显得困难。因为AI生成的声音与声优的表演过于相似。
泓君:在声音领域,技术上已具备替代人的能力,我们只需要探索如何解决相关从业者的生计问题——这本质是经济关系与工作伦理的议题,而不再是技术问题。我认为播客行业已出现类似问题。
天宇:技术上完全可行了,比如AI能模仿泓君的声音,你只需写稿无需录音,就可以转换成播客。但另一个观点也值得认可:声优不仅是提供声音,更是“配音演员”在演绎角色,他们本身也是流量焦点,对作品创意和商业的贡献远超物理声音的范畴,理应得到正视与尊重。
泓君:但从技术角度说,语音生成技术已经比较成熟了,但音乐还不行。
天宇:我觉得音乐也可以了。
泓君:AI生成音乐的表现力,与人类创作相比怎么样?
天宇:这个问题很有意思,甚至可以上升到哲学层面。学习音乐史时会发现,西方音乐史中主流风格的变化并不频繁,这反映出人类认为“好听”的音乐范式其实有限,而难听的音乐则层出不穷。现有的大调、小调及节奏体系已被乐理总结得相当完备,AI理解“好听”的标准并不困难,因此生成的音乐表现力如何,部分取决于听众的主观感受。
泓君:以Suno这样的音乐生成平台为例,我们早期觉得它生成的作品也太“口水歌”了。与相关开发者交流后了解到,这类平台不敢直接复制顶级流行歌曲,因为如果训练出风格高度相似的作品,会引发严重的版权纠纷。但理论上,只要输入高质量的训练数据,AI完全可以模仿特定风格。建议尝试用AI生成古典乐,因为许多古典乐已经过了版权期限,数据更易获取,目前生成效果相当不错。
天宇:这个观点其实非常正确。这里涉及的商业伦理问题不容忽视:如果技术上能复制周杰伦的声音,可以拿他的声音去写歌吗?
泓君:细想之下很可怕,这对新兴艺人尤其不利。所有艺人都需通过持续重复地创作来打磨作品,如果都用AI替代,那以后可能就没有好的新歌,或者说没有人类创作出来的好的新歌了。
天宇:这就是商业结构和商业伦理的问题,也印证了中间帧生成等技术背后的深层矛盾:表面上,中间帧生成模型能保留人类创作,而关键帧仍需手绘,看似两全其美,但从长远看,会导致行业新人失去成长的阶梯。小白需要通过大量重复练习进阶才可能成为大师,如果技术取代了这些基础工作,就像梯子抽掉了底部的横档,新一代动画师将失去向上攀爬的落脚点,这才是最令人担忧的后果。如果这种现象持续发展,动漫行业或许会在几十年后面临倒退风险,当前已显现的大规模人才短缺问题也可能变本加厉。
泓君:想一想也挺可怕的。
天宇:我们所处的时代也挺特殊的,技术与创意正以惊人的速度相互奔赴。对于视频生成、关键帧生成或声音生成领域的技术创业者而言,当下时代对他们提出了更高的美学要求。例如生成的音乐如何界定“好听”?评判标准是什么?这可能成为技术指标之外,模型训练与迭代优化的重要依据。
泓君:你的品位可能决定了模型的品位。我最近看到一些文章挺有意思,DeepSeek推出后,它回答问题的方式备受认可,后来在一篇采访中发现,梁文锋对文字美感有明确追求;Anthropic代码质量出众,可能与创始人的关注有关;再看ChatGPT的文本风格,明显渗透着Sam Altman对表达、营销及内容包装的重视。这些都与创始人的品位紧密相关。
天宇:甚至可以说,在大模型和视频生成模型领域,审美品位能直接转化为商业价值与产品优势。用文字生成20秒的小视频、特效或中间帧时,中间帧是否可用?5%的错误出现在哪?这些瑕疵能否被接受?如果一个技术团队能理解并优化这些细节,就能在产品竞争中形成独特优势。这或许是一个需要混合型人才的时代。
泓君:是的,每个行业都在追求混合型人才。
本文来自微信公众号:硅谷101,采访:泓君,图文:思扬、梓沁