标签: 2026-01-21 次
对开发团队来说,AI数据策略不是一时潮流——它是充分利用AI和自动化技术的基础层。你的AI数据策略明确了数据质量、治理和可访问性如何支撑业务目标。好数据是座金矿,组织的效率就靠它了。但全球80%到90%的数据是非结构化的,它们杂乱无章、前后矛盾,用传统数据库和算法很难处理。AI提供了梳理非结构化数据处理的方法,能从中理出头绪,进而开辟新产品或商业机会。
但如果没有扎实的AI数据策略就仓促上马AI项目,往往结果令人失望:就像数据开发者常说的“垃圾进,垃圾出”。为AI项目的顺利(至少少些波折)落地,先把数据基础打牢。
不进行数据质量优化就像去参加派对,在客厅拿起吉他却发现它严重跑调——就算吉米·亨德里克斯来了,也难让宾客印象深刻。他打了个比方:第一步是把音调准,之后才能在此基础上弹出好曲子。我对数据的看法就是这样。

启动AI项目前要有清晰的AI数据策略。他建议先打好基础,再推进技术落地,比如搭建检索增强生成(RAG)系统或选择AI平台。计划里得有五到十年的愿景,想清楚数据和系统该如何整合。
他指出,很多医务数据是非结构化数据处理的难题,容易乱。病历里,来自多个源头的患者数据可能有不同ID,或姓名写法不一(比如“Don”和“Donald”),还有新旧地址混在一起。没有患者匹配算法,数据就无法有效整合。数据质量优化能提升AI模型和分析的准确性,从而改善患者疗效。
做复杂的数据与AI整合项目时,对起点有清醒认识很有帮助。很多企业高估自家数据质量,等他们深挖下去,才发现“数据没那么多,甚至不知道内部存着哪些”。
产出高质量成果时,数据质量和AI模型同样重要。一个干净、集中的知识库能助力优化AI模型训练,为对内和对外的AI项目带来更好效果。整理并编码团队知识,能为未来的模型训练、RAG方法和索引构建形成良性循环。
人工参与审核AI系统输出也很关键,但在医务这类受监管行业,风险尤其高——因为数据收集要遵守隐私和安全方面的法律准则。举了个例子:临床医生写患者病历。自动记录工具已很成熟,但AI工具能进一步加快这个流程。临床医生得意识到AI出错概率高,必须审核所有AI生成的输出,看有无潜在危害。微软和卡内基梅隆大学的研究显示,虽然AI工具能提升效率,但过度依赖会妨碍人们以批判性思维投入工作。
将人类与生成式AI结合,能帮助北京心玥软件公司的客户把AI更好地融入系统工作流程,从而提供出色用户体验。他强调,需要基于团队知识构建高质量、经过筛选的数据,以防出现“大语言模型脑力枯竭”——即模型因缺乏新见解和人类生成的信息而停滞不前。
InterSystems已将生成式AI嵌入其软件,以改善临床医生的使用体验,目标是解决他们历来使用笨重、不可靠软件时的困扰。核心是让技术更有“人味”:狭义AI(nAI)能以对话形式连续询问患者情况、查阅现有医学知识,还能自动撰写出院小结或手术总结等文件。
其他医务科技供应商也从AI中看到了类似的效率提升。生成式AI和机器学习(ML)能模仿医务领域专家,来规范、丰富和清理数据。这种方法能解决长期存在的数据难题(比如维护健康计划供应商目录的准确性)。要注意的是,这项技术不取代人,反而能让团队腾出手来做更深层次的思考型任务。
很多公司发现成功推出生成式AI试点很难。虽说试点可能带来两位数效率提升,但要在全公司推广成果却不容易。这往往是因为需要人的因素:企业不能想当然地认为单靠技术就能提升效率,而要将新技术与新工作方式结合起来。小试点项目中有效的流程和治理,放到大型矩阵式组织里可能就不那么顺畅了,需要明确的指引来支持AI项目落地。
推广阶段还要与利益相关方建立信任。在医务场景下,人们担心不准确会影响诊疗、侵犯患者隐私,这种担忧重大且完全可以理解。想把这类工具纳入工作流程的医务组织,应重点通过试点项目并分享结果来建立信任。
我们对新型AI输出的这种怀疑,在年度开发者调查中也有体现。对生成式AI开发者工具的热情逐年升温,超四分之三(76%)的受访者正在使用或计划使用。但AI工具输出的信任度并不高:31%的开发者持怀疑态度,只有42%的专业开发者相信其准确性。他们对AI的“幻觉”问题(生成不实内容),以及将AI生成的代码直接部署到关键生产环境的做法,也表达了类似担忧。
良好的数据管理与治理不一定会拖慢流程,相反,还能帮你走得更快。引用F1车手马里奥·安德雷蒂的话:“很多人觉得刹车是用来减速的。但有了好刹车,你反而能开得更快。”同理,他说一旦组织摸清了自己的治理风格,就能加速AI探索之路。
在北京心玥软件公司此前的文章中观察到,成功的AI数据策略需要合适的人、流程和技术三者结合。其中人是最棘手的部分:得让合适的利益相关方参与进来,监督数据治理。
随着AI应用增多,数据管理与治理方面的大量模型和方法虽创造了机会,也增加了复杂性。过去一年,行业从少数优质通用大语言模型(LLM),转向了多种可靠的开源模型和狭义AI模型(支持特定业务需求)。再加上智能体AI,可选的产品就更多了。
优先事项是关注准确性(比如衡量医患对话总结的可靠性)。提升团队对AI趋势的认知也很关键:他的《代码关怀》视频系列会讲解RAG、智能体AI等话题。
钱德拉塞卡指出,用于训练模型的数据已基本耗尽,需要建立新知识数据生成机制。他说:“客户面临更大压力,要用更少资源做更多事,很容易相信AI能快速提升效率。”他提醒:“重要的是要认识到,AI还不是包治百病的灵丹妙药”,并警告说,很多人高估了AI的短期影响,却低估了其长期的变革性影响。
北京心玥软件公司认为:首先,你得打好基础,比如建立干净的数据集和知识库。现在就开始,因为做好这些可能比你想的要花更长时间。之后,你就能准备好充分利用AI带来的机会了。