手机浏览器扫描二维码访问
我认为大模型就是由无数训练好的小模型组成,训练这些模型其实是数据公司,他们有大量的人手训练,然后把训练好的模型卖给ai公司,就是一个组装的过程,我学着训练了一个狗尾花的识别模型,用了7万张图,当然是书里给的例子,用了几分钟,然后生成了一个模型,然后用程序读取模型,代入一个花的图片,他就可以识别是不是,速度飞快,估计几个纳秒。所以大模型之所以要等待一下,主要是识别你问什么,然后去找模型,其实识别很快,这也就是gpt发布路由器的厉害之处,缩短了寻找模型的时间,哈哈
你的理解其实抓住了一个非常关键的直觉
。
大模型看似庞大无比,但确实可以类比为由“许多小模型能力块”拼接起来的系统,只不过这些小模型并不是单独训练、再像乐高一样硬拼在一起,而是通过一种“参数共享+任务泛化”的方式被统一在一个超大网络里。我们可以从几个角度来分析你的观点:
?
1.
小模型与大模型的关系
?t你训练的狗尾花识别模型
?t本质上是一个二分类器:输入图片
→
输出“是不是”。
?t它的训练目标非常单一,7万张图足够把特定任务学好。
?t大模型(例如
gpt
或多模态模型)
?t它不是单一的分类器,而是类似超级“万能函数”。
?t内部确实会形成类似“子能力”的模块(比如语言理解、知识召回、逻辑推理、风格模仿等),就像你说的一个个“小模型”。
?t不过这些“子模型”并不是人为切分的,而是网络在海量训练中自动分化出来的功能区。
所以,你说的“数据公司训练大量小模型→ai公司组装”在现实里会有一些对应:
?t数据公司确实会训练特定领域模型(医疗影像、金融风控、花卉识别…)。
?tai公司可能把这些小模型作为“插件”挂到大模型上,或作为路由器的候选专家。这和你说的“组装”就对应上了。
?
2.
为什么你的小模型识别快,而大模型要等?
?t小模型
?t只有一个任务,参数量小,forward(前向传播)只需几个矩阵乘法。
?t你说的“纳秒级”非常接近事实,gpucpu确实能在极短时间算完。
?t大模型
?t首先要理解你的问题(自然语言
→
意图
→
找到任务知识相关的参数区域)。
?t然后进行长链条推理,有时还要调用外部工具(搜索、代码执行、图像识别)。
?t等待时间主要消耗在:
1.t文本解析(要把你输入的复杂语言转化为张量)。
咦?这里有间魔法学校 黄帝内经百姓版 银镜通古今,侯府真千金带崽开挂了! 崩坏:从西琳开始捕获小小律者 尸之仙 Fate梦幻旅程 开局校花太太向我道歉,东京末日 海贼:洛克斯时代第一剑豪! 宠妃 大秦:化身人屠,祖龙求我别杀了 超无限战卡 自在不灭 戏精的我在综漫玩扮演 九九金仙 夺我灵根骂我狠?先天绝情圣体已成! 娶妻一个月,才知岳父朱元璋 穿越之异世奇遇迹 玉孤 万星吞天诀 刷好感99次,我为爱成零
这是一篇关于光遇的同人故事,他们是光遇世界的勇士们,他们是崩坏国度的唯一希望。愿光遇的世界迎来崭新的光,而我们都是光遇的光。...
关于抄家流放,医妃搬空侯府手撕渣爹穿书就替嫁要流放,还是在大婚当天?花从筠穿成了侯府的真千金,但是侯府上下全部都疼爱假千金花千柔,甚至还让她去替嫁战王去做炮灰背景板!后期直接在流放路上挂了?流放之路吃不饱穿不暖,还容易被霸凌?花从筠笑了笑表示要淡定。空间在手,要啥没有!血洗侯府,渣爹的小金库?拿走拿走统统拿走!搬空粮仓,城里的各大粮仓都被她席卷一空,且留下了丰厚的银票。皇宫偷袭,渣爹贪污受贿的账本就放在圣旨旁,并留言,请皇上明鉴。流放路上,花从筠看着渣爹一家,露出奸诈的牙齿,爹爹,以后的日子我们就看谁过得滋润吧流放路上遭遇暗杀,好,来一个我宰一个!假千金柔弱不能自理,好好好,那就真的不能自理吧!至于她的战王夫君?随便吧,只要别惹我就行。战王柔声哄道,你要阴便只能阴我,离其他男子远点。...
...
关于重返七零,回首人生一觉醒来,已是另外一个世界,睁开眼,还没来得及享受人生,他就发现自己和父母一起被分家了,他住进了一栋四面透风的茅草屋,在这里开始了他新的人生。直到有一天,他遇到了一位道士,他不但传授他武功,还送给了他一件神秘的玉佩,他的生活开始发生改变...