要在AI应用领域领先，得先优化数据策略

标签： 2026-01-21　次

对开发团队来说，AI数据策略不是一时潮流——它是充分利用AI和自动化技术的基础层。你的AI数据策略明确了数据质量、治理和可访问性如何支撑业务目标。好数据是座金矿，组织的效率就靠它了。但全球80%到90%的数据是非结构化的，它们杂乱无章、前后矛盾，用传统数据库和算法很难处理。AI提供了梳理非结构化数据处理的方法，能从中理出头绪，进而开辟新产品或商业机会。

但如果没有扎实的AI数据策略就仓促上马AI项目，往往结果令人失望：就像数据开发者常说的“垃圾进，垃圾出”。为AI项目的顺利（至少少些波折）落地，先把数据基础打牢。

不进行数据质量优化就像去参加派对，在客厅拿起吉他却发现它严重跑调——就算吉米·亨德里克斯来了，也难让宾客印象深刻。他打了个比方：第一步是把音调准，之后才能在此基础上弹出好曲子。我对数据的看法就是这样。

ai应用前需要做数据优化

在AI落地前，先从清晰的AI数据策略开始

启动AI项目前要有清晰的AI数据策略。他建议先打好基础，再推进技术落地，比如搭建检索增强生成(RAG)系统或选择AI平台。计划里得有五到十年的愿景，想清楚数据和系统该如何整合。

他指出，很多医务数据是非结构化数据处理的难题，容易乱。病历里，来自多个源头的患者数据可能有不同ID，或姓名写法不一（比如“Don”和“Donald”），还有新旧地址混在一起。没有患者匹配算法，数据就无法有效整合。数据质量优化能提升AI模型和分析的准确性，从而改善患者疗效。

做复杂的数据与AI整合项目时，对起点有清醒认识很有帮助。很多企业高估自家数据质量,等他们深挖下去，才发现“数据没那么多，甚至不知道内部存着哪些”。

产出高质量成果时，数据质量和AI模型同样重要。一个干净、集中的知识库能助力优化AI模型训练，为对内和对外的AI项目带来更好效果。整理并编码团队知识，能为未来的模型训练、RAG方法和索引构建形成良性循环。

人工参与审核AI系统输出也很关键，但在医务这类受监管行业，风险尤其高——因为数据收集要遵守隐私和安全方面的法律准则。举了个例子：临床医生写患者病历。自动记录工具已很成熟，但AI工具能进一步加快这个流程。临床医生得意识到AI出错概率高，必须审核所有AI生成的输出，看有无潜在危害。微软和卡内基梅隆大学的研究显示，虽然AI工具能提升效率，但过度依赖会妨碍人们以批判性思维投入工作。

将人类与生成式AI结合，能帮助北京心玥软件公司的客户把AI更好地融入系统工作流程，从而提供出色用户体验。他强调，需要基于团队知识构建高质量、经过筛选的数据，以防出现“大语言模型脑力枯竭”——即模型因缺乏新见解和人类生成的信息而停滞不前。

生成式AI与好数据正改善临床医生的使用体验

InterSystems已将生成式AI嵌入其软件，以改善临床医生的使用体验，目标是解决他们历来使用笨重、不可靠软件时的困扰。核心是让技术更有“人味”：狭义AI（nAI）能以对话形式连续询问患者情况、查阅现有医学知识，还能自动撰写出院小结或手术总结等文件。

其他医务科技供应商也从AI中看到了类似的效率提升。生成式AI和机器学习（ML）能模仿医务领域专家，来规范、丰富和清理数据。这种方法能解决长期存在的数据难题（比如维护健康计划供应商目录的准确性）。要注意的是，这项技术不取代人，反而能让团队腾出手来做更深层次的思考型任务。

很多公司发现成功推出生成式AI试点很难。虽说试点可能带来两位数效率提升，但要在全公司推广成果却不容易。这往往是因为需要人的因素：企业不能想当然地认为单靠技术就能提升效率，而要将新技术与新工作方式结合起来。小试点项目中有效的流程和治理，放到大型矩阵式组织里可能就不那么顺畅了，需要明确的指引来支持AI项目落地。

推广阶段还要与利益相关方建立信任。在医务场景下，人们担心不准确会影响诊疗、侵犯患者隐私，这种担忧重大且完全可以理解。想把这类工具纳入工作流程的医务组织，应重点通过试点项目并分享结果来建立信任。

我们对新型AI输出的这种怀疑，在年度开发者调查中也有体现。对生成式AI开发者工具的热情逐年升温，超四分之三（76%）的受访者正在使用或计划使用。但AI工具输出的信任度并不高：31%的开发者持怀疑态度，只有42%的专业开发者相信其准确性。他们对AI的“幻觉”问题（生成不实内容），以及将AI生成的代码直接部署到关键生产环境的做法，也表达了类似担忧。