2024.07
国内大模型陷入了“冰火两重天”。
一面是OpenAI发出封禁邮件、冷脸“脱钩”,另一面是国产大模型摩拳擦掌、“搬家抢客”。
近日,包括通义千问、文心一言、腾讯混元、商汤科技、智谱AI、百川智能、月之暗面、零一万物、MiniMax等在内的国产大模型均表示要开放接口,以降价或免费的方式兼容OpenAI。
继今年5月底结束价格战,大模型从“厘”跨入“免费”时代以来,颇有硝烟再起之势。但数智Tech在调研了多位AI大模型行业人士后,发现B端开发者的“迁徙”意愿并不高,多数仍在观望,“OpenAI的检测技术和范围尚不明确,暂时不会有太多行动。”
一位独立开发者告诉数智Tech,“OpenAI的措施主要针对B端‘套壳’大模型开发商,限制执行地没想象中严格,仍可使用海外服务器或通过创建反向代理来访问ChatGPT的API。”
某大厂技术总监认为,短时间内国内创业者和开发者不会贸然“搬家”,“毕竟在语料数据和对比效果上,OpenAI提供的代码和分析逻辑数据相对优质。”
有受访者进一步对数智Tech表示,OpenAI的购买成本不高,开发者在没被完全屏蔽掉时,更替意愿不强。目前GPT-4 API的收费标准是每一千个Prompt token收费0.03美元,每一千个Completion token收费0.06美元。
商星环科技创始人孙元浩也指出,目前国产大模型卷价格对企业用户帮助不大,因为它们对模型的精准度要求更高,市场上最大参数的模型也未必能达到。
大模型好用与否的关键在于高质量语料。不论是数据集质量还是维度,国内大模型的行业数据和企业专属数据还不够丰富,且用户增长乏力。加上精准度不高,导致行业人士“搬迁”意愿低。
种种制约下,国产大模型的高质量成长,似乎又陷入了一个“恶循环”。
有从业者称,如果数据库中缺乏有用的语料,大模型往往只学到“皮毛”,生成答案也只是“泛泛而谈”。一旦在训练过程中学习到了不精确的内容,大模型生成的答案就会“变形”。加上大模型是基于概率生成答案,没有足量的优质数据做支撑,国产大模型很难保证返回答案的正确性。
大模型的下个阶段,竞争只会更激烈。参与者要想不被推下“牌桌”,除了卷价格,还必须要努力提升自身的“护城河”。在应用场景落地层面,因模型精准度不高和效果不佳,它们还有漫长的一段路要走。
01
模型精度,
不是联网就能做到
这次OpenAI关停API接口,在一些人看来是机遇,“为国产大模型打开了一扇窗。”
一位从事电商数据分析工作的人士向数智Tech透露,其所在公司正与几家国产大模型接触,“技术上国产大模型已达标,且中文语料的理解力较强,不足的数据质量部分还需产业上下游打通。同时,国产大模型目前都能提供免费的定制化技术和客户服务,不论是从成本还是覆盖范围上看,都能满足中型体量企业的需求”。
一位正与该电商公司接触作的国产大模型企业内部员工告诉数智Tech,为了优化模型精度,逃离价格“内卷”,公司自去年开始就在研究并借鉴谷歌的检索文档技术,今年上线的最新版本将部署“先检索再生成”的RAG (Retrieval and Generation)技术来提高文本准确率。
目前已有多家国产大模型公司如百融云创、智谱AI等已引入RAG技术。海外的英特尔也在今年5月表示,Llama 270B模型将搭配RAG技术用以强化私有LLM应用。
所谓RAG,即传统的生成模型严重依赖于内部记忆,通过调取模型训练的数据来生成文本或解答问题。这样一来,数据准确率存在局限性。
我们可以理解成,传统的生成模型就像一位老牌厨师,脑子里自有一套食谱,在厨房里只需按照记忆的菜谱进行烹饪即可。
当RAG模型处理任务时,则像一位手边有手机的厨师,他随时调取互联网里海量的食谱和调味方法,灵活将其应用在烹饪的料理中。通过RAG模式训练的大模型,不仅能兼容传统语料训练中的反应力和表达力,且能调用语料库外海量的文本和图片模态,结合过往习得的归纳、总结、判断能力,提高回答的准确性,压缩用户的信息筛选和理解时间,从而提高利用效能。
不过该人士也指出,对于尚处在成长阶段的国产大模型而言,如何保证检索质量和生成一致性,并不是联网就能做到。
首先,在检索质量方面,如何训练一个高质量的检索模型就是挑战。该从业者解释道,虽然目前行业内普遍采用的密集向量检索模型(BERT)能够提高检索结果的相关性,但其计算复杂度高,训练和推理需大量的计算和电力资源。
虽然结合传统的检索方法(如BM25)和现代的深度学习检索模型可以综合优势,但两者如何有效融合也是一个难点。
他表示,尽管多轮检索和重排序机制可以提高检索质量,但也增加了系统的复杂性和计算成本。要想实现上下文敏感检索,还需对模型进行复杂优化;在反馈机制方面,如何收集和利用用户反馈数据,也需更有效的策略和技术手段;在生成一致性方面,为了对生成的回答进行一致性验证,需在模型中引入一致性检查机制。但额外训练一个一致性判别模型,就意味着企业要投入额外的资源和数据。
同时,一致性检查机制虽然可以通过约束生成保持内容一致性,但也可能限制生成模型的灵活性和多样性。
就如何提高模型对于不同模态信息整合和校对的一致性层面,他提出,未来国产大模型还需建立多任务学习框架来提高模型的泛化能力。但多任务学习训练复杂度高,且不同任务间的干扰,也是亟待解决的问题。
种种制约因素下,AI厂商还需持续性大量投入AB test来提高检索质量和一致性。
02
从多模态到跨模态,
“微调”决定应用效果
当模型精度的议题被提上日程,大模型的应用效果该如何提升?
以医疗领域为例,一位AI大模型从业者向数智Tech称,其所在公司今年的训练重点,是进行医学影像图片分割参数的微调。
他解释道,医疗一个高敏感度的领域,不同疾病和不同器官的医学影像特征差异显著。而传统预训练模型往往是在大规模通用数据集上训练的,不经过细颗粒化的微调,在医学影像上应用效果的偏差很大。
目前在医学AI领域已经实现了多模态解析医学影像。但模型在解析过程中,如何让它实现除了接受、处理文本和图像信息外,还能实现文本和图像内容二者的跨模态解析,是这一轮参数微调的关键。
一言以蔽之,多模态涉及不同影像和文本数据的解析,而跨模态则专注于不同影像和文本之间进行的数据转换和信息融合。从多模态到跨模态过程中,微调成了决定应用效果的关键一环。
以医学影像方向为例,要想实现跨模态良好的应用效果呈现,从数据预处理开始,就需对不同模态的图像进行二次标准化替换,提高影像的分辨率,并进行图像配准,使得同一解剖结构在不同影像图片(X光片、CT、核磁共振等)中实现毫米级对应。并通过旋转、缩放、平移等操作方式增加数据量,增强模型精准度。
面对人体复杂的器官和组织结构,在微调预训练过程中,开发者们还需要在训练中不断通过卷积神经网络(CNN)提取图像特征,并针对不同模态定制特征提取器,然后在下个阶段进行不同层次的特征融合。
“早期要在数据输入阶段进行文本融合,中期则是图像融合,后期则要在初步分类后对多模态进行双向融合。”该从业者称,要实现丝滑的融合,微调技术是“压舱石”。
此外,在模型预训练微调时期,模型开发者们还需针对如肿瘤检测、器官分割等不同任务,进一步优化模型参数,并运用迁移技术和标注影像数据集,将预训练模型应用到新的数据集上,减少训练时间并提高模型性能。
跨模态学习本质上是通过技术将一种模态的图像生成另一种模态的图像或文本,从而实现模态间的转换。这就要求开发者们在微调过程中不断引入新技术(如循环一致性损失技术, CycleGAN),并使用跨模态匹配网络,如跨模态对比学习,来训练模型适应不同模态间的共同特征,从而确保转换后的图像能够顺利还原为原模态。
尽管微调听起来像是在原有基础上添砖加瓦,但实际操作并不比初始轻松。“尤其医疗行业,对误差容错率低,基础模型难培育应有场景的一大根本就是颗粒太粗,不能产生直接的落地效果。”该从业者表示。
要想实现跨模态转换,他认为开发者们需在微调阶段,大批量大规模地对同一患者的不同部位进行多次多角度拍摄,以喂养模型。等到了数据标注阶段,还需要投入大量具备专业知识的医学相关人员做辅助,标注和校对过程繁琐,全权依赖人力,在这一过程中容易引入误差。
其次,由于不同模态的图像有不同的成像原理,图像特征差异难对齐,图像的空间分辨率和对比度差异大,都为模型微调增加了工作复杂性。
此外,模型微调对算力资源也是一大挑战,特别是在进行多模态融合和跨模态转换时,训练复杂的深度学习模型需要长时间计算,且容易不稳定。
需要注意的是,机器深度学习往往是黑箱模型,开发者们难向客户解释其决策具体过程。在医疗领域,如何开发具有可视效果的解释模型以便医生们理解和信任,也是医疗AI模型的探索和实现商业化落地的一大关键。
“当前国产大模型已初具规模,不论是行业型还是通用型AI,参数微调都将成为下一阶段各大厂商的‘护城河’。”该人士称,不仅是医疗大模型,目前针对B端市场的行业AI整体处于成长期,随着数据的海量增加,算法模型愈加复杂,应用场景的落地效果会在探索中逐步显现,市场更应该集体减缓焦虑,扎根和纵深行业。
他表示,如果把国产AI比作一辆多功能汽车,前两年基本实现了能跑,现在到了需要对这辆车进行个性化调整,增加用户体验感的时候。而‘微调’就像是根据车主的驾驶习惯和常用路线,调整座椅、设置导航偏好等,只有这样,这辆汽车才得开地舒服、舒心。”
如今处于爆发前夜的国产大模型,一手抓模型技术,一手抓商业价值。在争分夺秒的卷拼中,谁能真正落地应用,产出利润,谁才能笑到最后。