读创公司调研|上海钢联:成功开发了大宗商品行业首个垂类大语言模型的应用“小钢”数字智能助手

上海钢联电子商务股份有限公司(以下简称“上海钢联”或“公司”)12月18日晚间发布公告称,公司于12月16日与多家机构投资者进行了上市公司投资者交流活动。在活动中,上海钢联透露, 公司在一年时间内完成了“钢联宗师”大宗商品行业垂直大语言模型1.0版的研发,并在“钢联宗师”的能力上,基于大宗商品行业的贸易、分析咨询和内容生成三个场景,成功开发了大宗商品行业首个垂类大语言模型的应用――“小钢”数字智能助手。该产品还处于试用阶段,需要通过邀请各行业用户进行试用,来测试产品的稳定性和适用性。如果试用效果良好,那么该产品就有可能正式定价销售,为更多的用户提供服务。

▲上海钢联公告截图

12月16日下午,上海钢联在“2024大变局・新动能中国钢铁市场展望暨‘我的钢铁’年会”上正式发布“钢联宗师”大宗商品行业垂类大语言模型及“小钢”数字智能助手。

会上介绍,通过在基模的基础上预训练大量的高质量大宗商品行业语料、指令微调和强化对齐三个过程,在一年的时间内完成了“钢联宗师”大宗商品行业垂直大语言模型1.0版的研发,并在“钢联宗师”的能力上,基于大宗商品行业的贸易、分析咨询和内容生成三个场景,成功开发了大宗商品行业首个垂类大语言模型的应用――“小钢”数字智能助手。

“小钢”助手具备价格和数据查询、行业百科问答、资讯整理和内容汇总、知识内容生成、报告解读和分析预测等多种能力,通过人机对话的方式跟用户进行交互,简化了传统的信息获取、内容分析和知识生成的繁琐和低效的步骤,辅助行业用户更高效地完成日常的工作。


以下为投资者关系活动主要内容:

1、“小钢”数字智能助手的基座模式是什么?

答:钢联团队在研发面向大宗商品场景的大语言模型时,经历了从基于第三方接口到自主研发的转变,最终选择了“百川”作为基础模型并顺利应用。目前,团队正与上海市人工智能实验室合作,计划使用书生模型,以更好地适应产业需求和实现制造业场景的落地。钢联认为,图像声音是多模态能力的重要组成部分,“书生浦语”模型所在的上海市人工智能实验室在视觉方面表现较强。并且人工智能实验室给钢联提供了大力支持,包括高科技研发资源和顶尖算法人才的参与,共同推动该项目的发展。

2、多模态之后的模型的参数量是否需要增加?

答:公司和上海市人工智能实验室正在共同进行面向产业的多模态大模型研发,但具体使用哪个版本实现对应模块的能力还需在研发过程中决定。多模态可能包括语音、图像和文本等不同方面,不同版本可能有所不同。因此应用在“小钢”数字智能助手这个产品具体拟合了多少个不同版本或其他版本尚不确定。

3、客户对“钢联宗师”大语言模型和“小钢”数字智能助手评价如何?后续商业化是如何开展?

答:前期公司内测,内部分析师对“小钢”数字智能助手的评价虽有不足,但已经能够提供很多工作上面的辅助作用。“小钢”助手提高了用户在平台找信息和知识加工的效率,使得用户不必再繁琐地寻找信息,能够提高工作效率。同时,分析师们也在使用“小钢”助手来辅助写稿,帮助他们更快速地分析和解读市场趋势和数据,能够更加专注于分析和研究工作,而不必花费过多的时间和精力在写作和整理上。

目前整体规划是邀请各行业用户试用,根据体验结果决定是否正式定价销售。这一规划表明该产品还处于试用阶段,需要通过邀请各行业用户进行试用,来测试产品的稳定性和适用性。如果试用效果良好,那么该产品就有可能正式定价销售,为更多的用户提供服务。

读创公司调研|上海钢联:成功开发了大宗商品行业首个垂类大语言模型的应用“小钢”数字智能助手

4、小钢助手目前是否仅有web端?什么时候可以有移动端、终端产品?

答:公司在大数据模型方面的三步走战略,包括解决内部降本增效和增量问题、模型产品化以及将所有产品用大模型技术重做。此外,公司正在开发一个Word版的插件,将钢联的数据研究、查询和内容写作场景集中到该插件中。下一步计划是开发APP版,并将小钢助手移动版集成到我的钢铁APP中。未来,公司还计划在钢联数据终端中开放一个助手功能。

5、对于模型目前采取的部署方式是什么,主要就公有化和私有化进行区别?

答:公司目前主要解决内部产品问题,部署在私有云上。未来公司可能会根据行业用户的需求,定制企业的大模型或小模型,并可能使用公有云或私有云。

6、对于模型是否已经完成备案?流程到哪一步了?

答:我们在10月份的时候提交了材料,网信办已经给了一些优化建议。我们非常重视网信办的建议,目前正在做对应的技术优化。

7、多模态在钢联的应用场景?是否有MES(生产制造管理系统)场景?

答:公司目前没有特别针对制造核心生产场景的控制及管理系统,但产品场景是多模态的,因为数据终端产品主要面向研究类用户,研究工作本身涉及多模态数据,如图片识别和PDF文件信息抽取等。

公司的“小钢”已经具备简单的多模态能力,主要处理文字和语言类多模态数据,难度相对较低。未来公司计划进入工业场景,多模态将更多应用于视觉方面,如钢厂制造中的全方位数据流监控。在工业生产过程中,公司将实时转换多模态数据流为结构化数据,输入大模型进行分析和判断,提供生产意见,如良品和质检等场景。

另一方面,公司将构建大模型在前端,以对话方式与人进行更友好的交互,下达生产指令、排产计划和设计机器人轨迹等。

钢联未来将进一步深入产业,介入核心生产和各系统。今天发布的EBC已与客户的各种系统打通,实现数据价值化。例如南钢项目,通过人工智能方式分析和处理生产经营中的数据,并提供决策支持。后续计划是将现有模式转变为人机交互方式,利用大模型更准确理解人的指令和意图。

8、“小钢”如何保证数据的准确性?以及利用公开数据的合规性?

答:对于数据的准确性,首先,使用内部的数据库结构和业务逻辑来训练大模型,使其能够识别和查询所需的数据。其次,通过反向训练的方式,将成熟的案例训练给大模型,并由大模型监督模型实现准确性。对于文档的合规性,通过训练小模型来识别语料的主题和是否包含敏感问题或错误,以确保使用的语料是合规的。在训练大模型时,使用相似度较高的语料可以避免模型偏离主题。此外,引入大量已经筛选过的优质语言可以避免合规问题。此外,钢联拥有海量的产业大数据资源,并且积累了大量的合规能力。

这使得钢联在给大模型做预训练时能够保证数据质量,并且在引入外部数据集时能够进行高质量或合规的筛查处置。

9、国家发改委发布关于向社会公开征求《“数据要素×”三年行动计划(2024―2026年)(征求意见稿)》,请问公司在数据要素和人工智能结合的领域上,有什么规划?

答:公司作为一家数商企业,我们拥有大量符合数据要素特性的有价值数据。高质量的数据能够增强大模型的能力,而大模型也需要高质量的数据,二者相辅相成。我们将继续利用技术手段将更多数据纳入我们的数据体系,帮助政府和行业更好地沉淀数据要素的价值。同时,我们也非常重视大模型的发展,并要求研发团队快速跟进,投入相应资源。大模型成为我们另一个重要的发展方向。我们将结合数据要素和大模型,针对行业或产业的场景进行应用开发,并支持大模型的发展和数据资产的沉淀。

10、请问公司数据资产入表什么时候开始实施?实施方法和未来增量?

答:公司已经实现数据销售,体现数据创造价值的业务模式,根据相关准则的要求,满足了数据资源入表四个属性,具体包括:拥有权属、历史业务形成、成本可计量以及能够带来经济利益的流入和管理效能的提升。根据《企业数据资源相关会计处理暂行规定》自2024年1月1日起施行,公司将按照监管要求编制2024年第一季度报告。未来公司施行《暂行规定》过程中可能存在其他不确定因素。

对于实施方法,从前期与数交所、审计机构的沟通情况来看,目前没有相关的细则规定,但我们也在持续做相关准备工作,包括技术中心、标准化办公室相关条线、以及管理层访谈等。未来资产入表,在知识产权保护、内部管理提升等方面都能够带来很大的好处。公司创立的大宗商品数据服务“八步流程工作法”具体内容涵盖市场调研、建立样本库、采集与入库、验证与分类、数据标准化、离群值处理、数据编制及数据发布,通过上海钢联数据加工平台,实现数据“生产、加工、传输”的全流程标准化质量管理模式,并利用统计监测系统和无监督机器学习提高数据处理的准确性。为公司未来实施数据资产入表的管理流程工作提供了保障。

关于增量,目前我们认为难度最大的是评判数据使用的寿命,即费用化的成本变成资产后如何摊销的问题。

11、数据资产入表是按照成本法吗?如何进行成本的分摊?

答:根据暂行规定,未来开始实施需要按照成本法、未来适用法,未来分摊方法还是要根据公司业务实际流程,协同公司技术部门、标准化办公室以及会计师共同商讨确定。

12、上海数据交易所是支持上海钢联来打造这个行业数据交易平台的,那么我们在这一块有没有相关的一些规划或进展?

答:公司和上海数据交易所签署了战略合作协议,上海数交所支持上海钢联建设钢铁行业数据交易平台,共同推动钢铁行业数据流通交易,并在规范、标准、制度等方面形成共识,与上海数交所平台互联互通,加快构建多层次数据要素市场。未来具体实施需要看相关配套制度的落实。

读创财经综合

审读:谭录岗

您可以还会对下面的文章感兴趣:

使用微信扫描二维码后

点击右上角发送给好友