会在AI领域被美国甩开吗？---对ChatGPTSora的一些想法

发布时间：2024-04-14 07:54:15 作者: bob登录新入口

原标题：会在AI领域被美国甩开吗？---对ChatGPT，Sora的一些想法

最近最近一段时间，OpenAI公司的Sora火爆了，查了下时间是2月15日（美国当地时间）发布的。

当然了，每一次有新的东西出来，都是我们学习的机会，比如AGI这个词，最近因为Sora火了，我们就常常看到，但这个词是啥意思呢？平时我们不是都说AI（人工智能）吗，怎么又出来一个AGI。

像360的董事长周鸿祎就针对Sora的发布评论说“AGI线年的问题，可能一两年很快就能轻松实现”。

AGI是ArtificialGeneralIntelligence的的缩写，直译过来就是通用AI，直接点说就是能在所有的领域都达到人类水平的人工智能。

人类是智慧的生物，所以一个人可以训练为医生，护士，司机，飞行员，士兵，工程师，快递员等等，表现出从事各行各业工作的通用性，对现实世界有强大的理解能力，而且还可以在工作中不断学习成长。

再比如我们手机里面的智能语音输入法，它能做的就是把你说的汉语转化为文字。

再比如我们汽车里面的各种车机对话机器人，什么理想同学，小艺，小P等等，它能做的就是听懂你说的指令然后打开空调，调温度，打开车窗，导航什么的。

我们现在登录一些程序的时候，经常会弹出一些图片，让你把它指定的选出来，比如汽车，自行车，女性，海边的男孩什么，这样做的目的是确认你是人类在登陆，因为人类有对世界的理解，我们脑子里不需要去存储记忆那么多海边男孩的画面，而是凭着对描述的这个画面的理解可以把相关图片筛选出来。

比如在相册里面搜索驾驶证，那么驾驶证的图片就可以很快的显示出来，我今天就在我的华为手机上用了这个功能，因为在试驾车需要出示驾照。

但是如果如果搜索复杂一点的东西，比如搜索“父亲和儿子“，就显示不出来了。

再比如有的AI画出来的画，或者做出来的视频，感觉就是怪怪的，和现实物理世界不一样，以至于人类可以分辨出这就是AI风格图片视频。

我过去的半年开了一些火热的国产新势力新能源车型，有时候让它放一首歌，它放出来的是错的，不是我想听的版本，那能不能够做到我说话告诉它放出来的歌不对，什么版本才是我想听的，然后它下次就能把正确的歌放出来了？目前还不能。简单的说，就没有记忆功能，就像是一个没有记忆的人。

然后发布更新版本再推送到端侧，而且更新的版本也并不全是我们想训练出的效果。

如果能达到AGI的话，我们就能自己把车机聊天机器人越训练越聪明了，训练成我们想要的样子了。

这次Sora出来，之所以能够出现这么大的震撼，是因为在第二点上，也就是对世界的理解上实在是太惊艳了，根据文本生成的视频居然没什么逻辑错误，和人类生存的物理世界表现一致，让人难以分辨这是AI生成的视频还是人类做出来的视频。

我们教AI来理解和模拟一个运动中的物理世界，目的是训练模型来帮助人们解决需要真实世界互动的需求。

接下来OpenAI公司说了下他们在邀请技术专业技术人员评估技术能力，包括对视觉艺术家，设计者以及影视从业者开放了使用，以获得他们的反馈来改进。

接下来说Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户的要求，还了解这么多东西在物理世界中是如何存在的。

然后说该模型对语言有着深刻的理解，使其能够准确地解释Prompt(也就是用户输入的文本），并生成令人信服的人物，表达充满了许多活力的情感。Sora还可以在一个生成的视频中创建多个镜头，准确地保持角色和视觉风格。

最后说目前的模型还是有弱点。它可能难以准确模拟复杂场景的物理特性，也可能没办法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后，饼干可能没咬痕。

该模型还可能混淆提示的空间细节，例如混淆左右，并可能难以准确描述跟着时间的推移发生的事件，例如遵循特定的相机轨迹。

然后提到了安全的问题，这个比较长，简单的说主要是想避免Sora的技术被滥用，不仅要通过专业团队测试来确保Sora能拒绝用户输入有害文本，而且还要确保Sora产生的视频中没有各种误导性，仇恨和偏见的有害内容，而且还在开发工具来检测产生的视频内容是否包含有害信息。

最后是一段关于技术的描述，很技术化，包括Sora是一个diffusion的模型，并且和GPT一样是Transformer架构，这个非技术人员不需要去了解细节。

但在最后提到，Sora除了能够仅根据文本指令生成视频外，还可以获取现有的静止图像并从中生成视频，从而准确地动画化图像内容，并注意小细节。该模型还能获取现有视频并对其进行扩展或填充缺失的帧。

最后说Sora是能够理解和模拟真实世界的模型的基础，我们始终相信这一能力将是实现AGI的重要里程碑。

看完OpenAI公司的介绍，我的感受是OpenAI公司强调的是对物理世界的理解能力，包括对人类语言（文本）的理解能力，以及生成的视频对物理世界的模拟真实度，相比之前有了很大的进步。

1：当前AI的三个特点（弱点），只能用于特定领域，物理世界理解能力，自主学习能力这三项。

尽管其承认在辨别左右，以及吃饼干后的变化等场景还不行，但相比之前已经是进步。

2：一项技术最后的价值是体现在商用，而Sora的潜在市场并不小，因为Sora最终商用的话，将极大的降低视频制作门槛

但就我想到的应用，就已经有广告，安全教育，电影，短剧，电视剧，自媒体文章，短视频平台作者发视频等等了。

其中尤其是广告市场是个极大的市场，像字节跳动，百度，快手，拼多多（没错，一个电商企业收入大头居然是广告），微博和谷歌等等的收入都是大多数来源于广告，靠着广告的收入，就能成为巨头企业。

2023年光是谷歌的总营收超过3000亿美元，其中大部分是来自广告，而视频是广告的主要形式之一。

2022年外界估计字节跳动的总营收超过800亿美元，其中大部分也是来自广告。

例如作为播放广告平台的网络公司，如果实现了超低门槛制作视频的话，为啥不可以向自己的客户提供广告视频制作服务呢？这可是巨大的市场。

不仅是给广告客户，而且网络公司还可以把这项服务提供给普通用户，让普通用户都能够极快的生成视频，这可能也会产生巨大的引流能力，像现在B站，西瓜视频，油管等等都有大量的自媒体视频作者，而视频制作本身有一定的技术门槛，

如果人人都能很容易生成视频，那可能会造成视频作者数量大幅度提升，那些率先实现低成本视频制作的网络站点平台，可能会迎来大量的视频新作者，实现平台的繁荣，获得发展的机会。

比如理论上假设1万个用户输入同样的文本，那么Sora应该输出1万个不同的视频，因为用户不想要雷同重复的内容，那么当前Sora具备这样的能力吗？

同时不管是广告行业，还是电影行业，还是自媒体视频作者，客户的个性化需求极多，这就要求对视频进行各种调整，我前几个月就在当甲方做一段两分钟左右的演示视频，我回想了一下，由于负责做视频的人的理解和我要求的不一致，前后我提出的各种修改意见真的不少，Sora能够承担这种工作吗？还是只能用户自己手动调整？

如果Sora能做到以上能力，那么价格是多少呢？能做到低成本吗？如果成本很高，还不如继续用人工呢。

而之前ChatGPT语言模型的发展已经给OPENAI公司带来了慢慢的升高的收益，因为能够低成本的提供服务：

根据媒体的报道，OpenAI公司在2023年10月的年化收入（也就是当月收入*12）达到了13亿美元，

同时在2023年12月的收入，乘以12之后达到了20亿美元的里程碑。算下来单月收入大约1.7亿美元。

今年的技术挑战显然比去年大，但我认为先不说技术水平如何，国内公司也会跟进并且较快的推出类似的产品。

其一是由于视频新技术可能会带来对视频平台，广告，影视等行业的改变，这就直接影响到国内相关互联网公司的未来发展，会让相关企业产生不确定感和危机感，有很大的动力去投入研发类似产品。

像广告，电商，游戏是网络公司三大收入之一，如果广告行业因为新技术发生了改变，会不可能影响到公司长期发展？

像阿里，拼多多，京东这类电商公司，如果电商广告技术发生了改变，会不可能影响到电商的收入？

例如国内的各种视频平台已经不少了，从字节跳动，快手，腾讯（qq视频，视频号）等等，现在不管是制作长中视频还是制作短视频还是门槛较高的，很多人就不知道怎么剪辑10分钟视频，如果技术变革了，门槛降低了，谁都能够更快的生成有趣的视频，会不会发生新的变革？

举个例子，我经常上B站，但是我自己从来没有自己做过视频并且在B站上传，为啥呢，因为剪辑视频费时费力而且收益又低，一个粉丝较多的up主一个月流量收入就几千块。

如果B站推出了新技术，我写文字就能够一键制作成视频，而且基本符合我的原意，而且成本还低，内容还不会和其他人重复，那我何乐而不为呢？这可能会大大的增加B站的up主活跃度。

再比如腾讯的视频号如果率先推出了这种低门槛低成本的文字生成视频技术，会不会导致大量用户涌向视频号发作品尝鲜，结果影响其他短视频平台的用户数量和时长？

所以我觉得应用市场大，其结果就是国内不少公司会受一定的影响，他们是有很大动力去把这个技术搞下来，毕竟跟他们的切身利益有关系。

不怕在技术上暂时的落后，落后是可以追赶的，怕的是国内没有相关公司，尤其是大公司投入这个赛道搞研发。好在中国的视频产业够大，也有足够的驱动力。

其二是中国在国家和省市层面都已经格外的重视人工智能，算力中心的发展了。各种政策不断出台，我就不再一一列举了，这说明中国从政府到企业对AI的态度是一致的，而且是积极的。

就在2月19日，国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。

会议明确中央企业要把发展人工智能放在全局工作中统筹谋划，加快布局和发展AI产业，把主要资源集中投入到最需要、最有优势的领域，加快建设一批智能算力中心，开展AI+专项行动。

像Sora发布后，已经有省委副书记+市委书记这样的地方主官已经公开提及其重要性。

4：要改造人类的物理世界，即使最终达到AGI也是不够的，需要有物理层面的感知，算力和执行，终究是要有强大的制造业。

可以把人，比如我自己看成一个AGI，虽然我的头脑智力就是人类水平，比现在的人工智能还要先进，但没有物理层面的配合，仍旧没办法改造世界。

如果没有低功耗的神奇生物大脑，那我就无法长时间思考，也不能具备复杂思考能力；

如果没有双手，以及我使用的各种物理工具和装备，就没办法实现对世界的改造，当然也包括对物理世界的破坏。

但是如果我们没自行车，汽车，飞机这些硬件帮忙，我们一天的最高移动距离也就是几十公里；

没有大型工程机械，即使我们智能水平很高，光靠双手也无法快速完成大型工程。

因此限制了英伟达向中国所有公司出售先进算力芯片，迫使中国公司大量转向华为购买。

电子产品方面苹果手机100%在中国印度生产，大部分零部件也采购自东亚地区。

英伟达因为AI的爆发现在如日中天，但其计算芯片当前100%由东亚地区制造，主要是台积电（其中H100更是100%来自台积电），少量由三星制造。

汽车方面电动化转型最好的特斯拉，上海工厂成为其全球最大工厂，实际上假如没有上海工厂的高速度扩产和销售，特斯拉能不能挺过当年的困境都不好说。

因为需要算力的关系，因此不管是英伟达这样的全球计算芯片巨头，还是华为等国产计算芯片公司都成为关键变量，尤其是现在国内已经买不到英伟达的先进计算芯片了。

自从去年8月底华为Mate 60系列发售，华为海思芯片已能在国内批量生产开始，我就很关注华为旗舰手机的销量情况，因为华为的旗舰手机销量越大，那么国产高配置手机处理器芯片的销售数量就越多，对上游国产芯片制造业的拉动也就越大，从而也会惠及到计算芯片的制造。

并且都觉得应大力推进，同时又有大量国内巨头公司参与其中的产业并不是很担心，

不管是上次的ChatGPT，还是这次的Sora，都在国内掀起了巨大的舆论热潮，这是大好事，也说明了国内各方面认为这很重要。

同时它是个庞大的产业，最终还要在硬件设备上落地才能真正发挥改造世界的作用，因此美国其实挺难全方位的超越和领先，也代表着中国有赶超的机会。

倒是那些舆论上重视不多，投入资本也少，缺乏民间巨头公司参与的产业，我国追赶速度就很慢，比如科研用的科学仪器仪表，我查询了行业报告，每年国内市场就高达三千多亿人民币，这方面我国落后欧美就很多，大量依赖进口，虽然国家有部署专项国产化任务，但是缺乏民间巨头企业参与。

再比如机床产业，现在居然还要从台湾进口不少机床，而台湾机床本来相比日本德国等是要低一档的。

还有2018年之前的半导体生产设备和材料行业，国内都不重视国产化，反正能从美国日本荷兰等国买到，后来被美国制裁才被打醒了，下游公司开始大量采购和扶持国产设备和材料，从国家，企业到公众，对半导体产业链国产化的重视程度空前提高了，这才有了这几年的高速增长。

实际上对我们个人而言，也要关注AI时代带来的变革，比如现在各种AI工具慢慢的变多，能不能用这些AI工具提升我们的工作效率？

像我老婆给孩子买的学习机，只需要把作业本放在桌上上，学习机就能够最终靠摄像头识别作业本的内容，并且把作业本内容的图片显示在屏幕上哪些题做对了，哪些题做错了，大人轻松了很多。

我在想如果学校给老师配置了这种AI设备，老师批改卷子，作业是不是高效了很多？老师只需要看一眼屏幕，就知道哪个地方错了，知道该在卷子上哪个地方打叉，连分数都算出来了。

天天做PPT焦头烂额的社畜，被各种排版，素材，字体搞的很痛苦，有没有关注有哪款AI工具能够在一定程度上帮助自动写PPT，你只要输入文字内容就可以了？

有没有想过关注AI视频技术的发展，有没有哪款AI视频制作工具，可以把你拍摄的视频内容迅速自动剪辑好，配好字幕，这样你也可以当一个视频作者，通过视频分享自己的行业知识，在各个视频平台赚取流量费？

中国广大各行各业的大中小企业是相同，要思考什么样的AI工具可以帮助自己的企业更高效，更加高质量的运行，这不仅能给我们自己所带来好处，反过来也是给国内搞AI的公司能够带来市场机会，拉动国产AI产业的发展。

面对AI技术的发展，包括美国AI技术的发展，不需要恐惧AI会不会把我的工作替代了，也不需要担忧美国会不会又把中国远远甩在后面了。

人类的恐惧和担忧大多数来源于于未知，研究它，学习它，使用它，不仅能给我们大家带来极大的好处，而且各种恐惧和担忧也就烟消云散了。返回搜狐，查看更加多

上一篇: AI重塑社交谁才是C端叙事正解？

下一篇: 【48812】【美丽宅院小讲堂】——宅院小品装点空间和增加景致的重要元素