大数据应用 | 谭海华：探究数据质量在人工智能大模型中的重要性

数据Seminar 2024-03-13

本文转载自公众号DQMIS数据质量管理智库

【演讲嘉宾】【主论坛主旨演讲】

【关键字：数据质量、人工智能、大模型、数据集建设、数据驱动创新】

【演讲摘要】

非常高兴今天在这里和大家一起交流数据质量与人工智能及大模型的关系。我们一直在致力于数据质量技术研究十多年，刚开始在做这个的时候大家几乎没有任何意识，没有任何数据质量的问题。现在数据质量包括刚才范会长讲到数据这也是人工智能其中一个底座，数据已经成为人工智能的重要组成部分，我们再回过头来看数据质量为什么会在整个人工智能包括大模型里面起到的价值，这也是我们今年论坛的核心主题词，串起了有关AI和大模型，甚至是数据要素、数据入表关键的主线，因为这几个环节都离不开数据质量。

所以我今天是用这个机会跟各位汇报下我们在这个领域的一些看法、实践及研究。

我今天要讲的这几个事情，首先是关于人工智能和大模型，关于大模型和数据质量，我相信刚才已经讲了很多大模型的概念，他们之间有什么关系。我们先看一张图，这是网上流传的比较，有百度来的同事不要见怪，我确实从今日头条里看到了两幅对比画，这两幅对比的画，一个是文心一言一个是OpenAI的，这里讲的有关车水马龙的图片。我相信大家看到这张图片的时候能感觉有差距，具体差距在哪里？这两张照片给了我们很大的冲击力。

其实我们在谈这个大模型的时候，当OPENAI出来的时候最震撼的是并不是他所呈现的方式，其实这种方式在很多年前都已经有了，这是属于知识图谱的领域，并没有新鲜的东西，但是它对于语义的理解，对人的理解，已经让我们能够跟正常人的一样交流了，这是我们比较惊讶的事情，ChatGPT主要是两个大突破，一个是数据一个是算法，算法方面当然有它的独特之处，但是数据是土壤，从数据质量这个领域去看这个问题的时候,如果没有这个土壤，没有好的数据质量，是无法达到现在ChatGPT呈现的效果的。我觉得我们做大模型这个路很长，没有一定的基础是没有办法培养土壤的，尤其是高质量的数据，他不是靠一个工具就能解决的。

这是大模型的前世今生，其实这里大家都很清楚，这是最早的机器翻译、神经网络，我相信这里很多学校都是在研究，但是问题是为什么OPENAI一出来之后大家有点震撼。我们回顾下整个数据的发展过程，互联网时代，我们讲互联网BAT，为什么BAT能够攻城略地，是因为有数据，即使没有高质量的数据，也可以攻城略地，有流量就可以了，那个时候能抓流量就足够了，流量有没有好和坏，其实在那个时候遍地都是机会，不需要关注数据质量，有流量就行了，为什么有那么多衍生商业模式出来，因为有流量。有流量时代的已经孵化出那么多公司，这就是我们第一代，我们要理解数据对社会的影响，这个不用讲从百度、阿里巴巴跟腾讯所覆盖的地方基本上全部占掉，因为我有流量、数据。这个时代是这样的。

当然现在互联网时代正在转变，刚才讲到许多高管因为技能问题，马上就下课了，因为时代变了，可能所有技术都不一样了。早期，数据对整个经济的影响，对整个业态的影响，第一时代就是流量为王，有流量就够了，这个时代我管它有没有质量，因为没办法辨别质量，有流量就行了，你在衡量它的价值的时候，拿流量做衡量标准，因为没有质量，有流量就行了，其次，第二代我们叫精准营销1.0，已经有些客户开始说有流量不行，我还是要做精准营销，但是精准营销的话，大家知道很多都是单向输出的，单向告诉你，我可以帮你触达什么，但是你能不能有效果给我。有触达已经不错了，你还想要什么，能触达就好了，你拍个广告牌在高速公路里面，你看到，你不知道是谁看，但我还告诉你我能够发到你的IP地址，我已经触达了，你就应该给我钱。接着，我们看到在金融界大量开始使用数据，这就是信用与风控，信用与风控是我们在利用大数据时代最典型的一个场景，我知道很多数据分析师，专业的人才都是来自于金融界，因为信用与风控在金融界先开始做起来。精准营销，可以说我们数据用的场景都在这里，包括我们昨天为什么讨论智能制造，没有讨论商业上的数据怎么用，因为大数据的应用已经下沉到智能制造这个更深的蓝海里面去了。

我们能看到数据权利转移，今天我看傅院长讲了这个，就是权利的转移，其实这个图5年前的时候在一次演讲里面讲到的，大家可以看一下我们整个数据发展演变的过程。

开始数据1.0，我有票证就行了，大家说我有票证已经很满足了，因为有票证就可以无纸化，信息化就是无纸化嘛，我有票证了，我有电子的东西，所有IT技术发展第一代的思维方法都是这样子的，这也就是IBM为什么会成为霸主的时候，为什么IBM会成为当时那个时代的霸主，因为他能把这个事情做好，完整正确管理内部数据，这是第一代。到了第二代的时候，我们需要的是数据2.0，那就是流量经济了，这个时候谷歌起来了，百度起来了，为什么？我有流量，我有触达。这个时候我们关心的是海量的存储和海量的导流，包括我们数据颗粒度的分解，结构的分解，我们现在开始关注用户画像、场景分析，我们要去做数据分析，要开始考虑数据质量。也就是说我们在数据2.0的时候，数据质量已经开始变成越来越重要。到数据3.0的时候，现在我们怎么去看人工智能，这也是今天我们引入的话题，数据质量在人工智能里面是怎样跟我们人工智能去结合，怎么去驱动整个业务的变化，这是其中一个点。

在这里面我们就看大数据时代的质量与挑战，我们不重视它不代表它不存在，你不知道，但不代表它不存在，我们要有更多的认知。这是一张图，大家可以看这张图，大家其实对数据质量的问题有很大的不同理解，什么叫数据质量，昨天我们在讨论的时候也提到这个问题，我们谈数据是有边界的，我们可以归纳为数据空间的问题（Data space），Data space我相信现在是整个数据界里面我觉得比较前沿的，大家在研究的事情，这个事情是以数据为边界来形成了它的边界内的所有标准及数据质量，因为我们谈任何数据的问题都必须有数据边界，要是不谈数据边界去讨论数据质量没有任何意义。

好多人讲我的系统非常好，我的质量非常棒，我没有任何问题。在你这个边界里是没有问题的，一旦你越过了这个边界，你就有问题了。我们在讨论数据质量的时候，它的概念是在哪里，它的相对性在哪里。这张图大家都很清楚，现在可能大家的手机不用这么做了，以前的手机都是按指模，按4下你的指模才存储进去，但是你每一下都是真的，你每摁一下都是真的，它是真相，但是真相不代表全部，对的数据不代表真相，这是一个问题。你的指纹按第一个是对的，是你的指纹，但只是你的部分指纹，它不是你的全部指纹，所以你必须要按4次，你的全部真相才出来。

其实我们很多时候看数据只看了一部分，就开始认为这个是不是就是真相，假如说我们没有越过这个数据边界的话，我们永远理解的都是这个，因为你只知道这个，但是我们有几个原则，首先，对的数据不代表真相，这是一个概念，我们在谈数据质量，对的不一定代表真相，因为你可能只知道真相的一部分，第二，错的数据一定不能反映真相，第三，大数据时代正确的高质量的数据能让你无限接近真相，我们只能乐观的讲我们在这个世界里面只能无限的接近真相，因为你有边界，你没办法够的上，尤其在人工智能的时代到来之后，你只能是无限接近真相，你不能说你都知道真相，这就是我们要谈的一个观点。

我讲一讲数据质量如何赋能人工智能大模型，这是欧盟的一个最新的文章，这里面我希望能补全范会长前面个提到的一些业界政策法规。这是欧盟在去年2023年最新发布的有关人工智能里面的数据质量要求的条例，欧盟已经对人工智能里面对数据质量的要求进行了界定，而不能说谁做大模型都可以或者谁做人工智能都可以，你以后可能做的人工智能跟做的大模型是必须符合某些数据质量的标准，你没有这个标准的话，有可能你就是伪模型、伪真相，你会带来一个错误的导向，这是非常关键的一点，这是欧盟在2023年5月份左右发布的，好几条国际标准。

这里面有关数据质量，ISO的标准在人工智能已经开始在关注这个问题了，假如说现在已经有人故意灌输错的数据，训练错的数据，也就是说大模型也好，人工智能也好，它是双向的，好人拿来干好事，坏人拿来干坏事，但是这个问题是说你怎么去判别好事与坏事，要是没有这个能力去判别的话，那你只能被带着走，这个时代就是这样子。

数据质量如何赋能大模型，在这里面我们讲的稍微技术一点，我相信这里要是有做数据分析的人，大家都理解整个算法的来龙去脉，这个算法是怎么来的，我们怎么训练出一个好的东西。我们讲到的风控算法，我们可能会有很多结果输出A、B、C出来，但是这些算法其实都依赖于这个输入数据训练，但是我们在做数据的时候，你怎样能够跟算法进行有效的互动呢，怎么能够去判别出来这个数据对你的算法是有效的一个改进，这是蛮关键的一个事情。在用于算法训练的数据中，我们有很多的关键点，在前面比如说包括大数据、多维度、跨界，包括标签丰满度、快速、样本精准，其实这些东西都会直接跟我们的算法有密切相关。

在做模型分配上，我只是举一个其中的例子，比如说我们怎样通过数据来配合算法的一些运算，这就是我们讲到的大模型，包括我们的算法怎么支撑，这是其中的第一个点，这个点就是有关建立高质量数据的做法。还有一个很重要的事情，在数据质量与人工智能里面还有一个很重要的领域，你怎么去建立高质量的数据集，我们刚才讲了只是去挖掘数据的问题，但是还有怎么去找，去建立高质量的数据集，配合我们的算法。

这里面有几个地方提到，一个是数据集与AI的算法，还有数据集关键参数上的识别与AI算法，如何高效建立高质量的数据集，这可能在人工智能里面这三个领域都可能是相关联的。这是刚才提到的。

回到这张图，我们怎么建立数据标签，如何提升数据质量来去辅助算法训练，另外就是怎么样找出算法的关键特征要素，其实这个关键的特征值可以讲是算法里面的关键点，这是我们做的其中一个研究，这个研究是在医学界，大家可以去看这个例子非常简单，这个例子我们有三种特征值的选项，一种是按病种，另一种是按病种的编码、名称，还有一个是病种的名称和编码相同匹配的，我们在按不同的建制来建立高质量的数据集。但是其中你会发现在最左边的时候不同的特征值采样数据样本是不一样的，所以我们现在很多时候碰到过很多场景，大家在做算法的时候比如说像癌症筛查，我们在做癌症筛查的时候为什么在做特征值的时候其实很难一点是找癌症筛查的特征值究竟是什么，这个特征值我相信可能是通过我们的经验，现在所有的算法很多是来自于经验再加数学来形成算法的构成。但是我们能不能通过数据分析找出特征值，而不是仅凭经验，这个是我相信未来需要更多应用的场景。

这是我们其中一个案例，这也是做比价系统，比如大家手头上的水，假如说你从五大的电商系统里面把数据都爬下来，你怎么知道比对下这瓶矿泉水究竟是哪个电商最便宜，就解决这个问题。解决这一问题，你要知道在不同的电商里面爬下的这个水比较特征值是什么，我们现在讨论的，都是自动化去处理，不是说用人工去处理。这里面我们只用了两个维度来进行比对，一个是按照数据集的关联强弱，一个是按照空置率。在数据优化前的这个组合分析，我们告诉客户一个背包背囊在电商里进行比价系统的时候可以用这9个参数值来进行比对，有可能你就能做出唯一性的判别，这个背包背囊就是同一个东西能够进行价格比对。我相信匹配技术、价格比对是未来商业里面最大的应用场景。大家知道携程就是做机票比对起来的，哪个价格最低我就可以买哪个。但是未来的比价会越来越复杂，就像刚才讲到的这个看似是假的，有没有一个技术是防伪，能不能多点特征值去进行防伪，这个坏人就做不了坏事，因为好人的技术更高，匹配更准，比价会更精准。反过来，为什么我们没有办法识别造假，是因为我们还没有找到真伪识别的关键参数项，我们再看这个例子，中间就是我们的人工选择出来的数据，左边就是机器出来的数据，我们也可以建的关键参数项是什么，这个我们也跟人工做了非常深度的对比，我们如何在这个领域进行关键参数项的选择来进行数据质量提升的。目前我们客户都认为自己的数据非常多，但是不知道怎么用，不知道怎么用其实最核心的问题是你如何知道你的数据里面能够变现最关键的参数项在哪里，你能找到之后就知道跟场景进行匹配。如果你找不到，这些数据就躺平在这里，大家就没有办法去利用。

你是否有一个方法来去找到数据价值，这就数据增值的方向。刚才我们已经举了这个例子，后来我们通过支付数据可以快速形成商业价值，这种商业价值包括我们怎么建立客户的活跃度指标，怎么进行产品的使用建议，怎么进行不同商圈与人群匹配，包括我们渠道设置的优化提升指标等等，这些都是通过我们已有的数据来进行关键参数项的发现之后形成的商业一些转换，这种转换我们会看到原来我的数据有这些价值。

另外是怎么提升数据质量，大家都知道数据质量的重要性，怎么提升。我前面也讲到，这个表看似简单其实隐藏了所有数据治理底层工作、底层基本功，你做的好不好拿三张表练一下就知道了，能不能用自动化去处理这个问题。大家看到这三个表的合并，这个合并无非就是三张表，不同的结构系统，在单一的时候都是标准的，在单一边界的时候都是高质量的，但是这三张表合在一起，或与其他公司交换数据，这个时候发现做不了。我相信我们现在包括大量的数据共享都会面临这个问题，这个问题不解决，共享出来的价值很低，你要清洗这个数据，进行数据融合，可能要大成本要去做。刚才提到这几个基本上就涉及到规范问题、标准问题包括语义定义问题，要是从专业的角度来讲数据问题全部都来了，为解决这些问题，很多人要去做主数据管理系统，元数据管理系统，投资可能一千万、两千万，但是出来的效果不一定行，这就是我们昨天讨论的，谈数据要素，数据交易似乎在天上，但一触及数据治理清洗等，就落到凡间，因为成本太高、时间太慢，大家去把数据变现基本做不到的，怎么做，这些都是很具体的问题。这里就不讲了，数据标准化的实施方法一套一套都有，但是怎么落地，这是我们最关键的。包括我们在讲数据映射中的技术难点，怎么进行数据治理核查、代码溯源等等。当然我们会看到标准的一些做法，像事实标准，我们怎么找事实标准；标准建设，大部分来自于经验、来自于专家，这是对的，但是只有80%是对的，但是还有很多是连专家也不知道，尤其是当你把数据边界进行融通的时候就出现问题了，因为你只是你自己边界的专家，你不是别人数据边界的专家，你怎么知道别人的数据标准在哪里，你怎么知道这两套数据融通的标准在哪里。我们不可能把两家公司架构师都找来来讨论这个问题或者形成一个新的标准。所以我们在做数据交易和数据共享的时候，这些技术要是不能够快速地去处理，其实很多数据业务是很难走下去的，因为主要是成本问题。

这个片子里就是我们讲的数据标准，这也是非常典型的案例，前面叫所在地点，下面叫具体位置，你怎么知道这两个表这个字段是一回事呢，你怎么知道它是表达同一个含义呢。这些都是我们在做的核心技术。这就是我们讲到的几个事情，了解用于建立数据集的数据质量和数据之间的关系，关键参数项这是非常关键的，第三个所有上述工作都离不开相关的数据质量技术，包括如何确立表、如何知道同义不同词，或者一码多物等等。

还有一个环节是我们开始讲到很多还是解决存量问题，我们更多是要迈向增量，我觉得很多企业都在跟我说存量的东西就不管了，我的系统我做的好好的还搞它干嘛，但是我数据要入表，我要去增量市场，我要走到增量市场，增量市场就是我拿到数据不是为了现有系统服务的，我是为了以后增量做的，增量就是驱动、创新，我们怎么用数据来进行驱动创新，这里我会快速讲讲。

我们看到这在智能制造里面的很多案例，包括一个模具、四个维度，通过这个数据的快速发现之后怎么知道这个模具的质量问题，要是按照模具维度来讲的话，应该这四个维度或者三个维度每个采集点的个数都是一样的。但是你的采集点个数明显不一样，我们在做智能制造的时候采集点个数都不一样，说明有两种可能，一种是基点打下去没有充分地打到足够的点，二是采集断点，它是打下去了但是没有把数据采集回来，只有两种可能会导致这种情况发生。包括一码多物、一物多码的问题，这都是很多制造业里都会面临的问题，我们如何通过盲测技术来自动地去发现这两个是同一个产品，你可以看到后面的，大家看到第二个场景都是30750，你怎么知道这两个原来是一回事，当我们把这个事实摆在客户面前就清楚了。刚才我们讲垂直大模型建设，遇到这种情况问题不解决，垂直大模型走到这里走不下去的。

这是我们的一些视角，这些视角的研究里面包括监测、正态分布的整个结构，这里面也是我们去分析的，时间关系就不多说了。包括我们现在也应用到了政务方面信息化里，通过数据的分析来去对信息化项目质量进行验证，因为我们假定一套完整的系统下沉的数据应该是有逻辑的严谨性，但是我们通过下沉数据进行逻辑分析的时候会找出整套系统里不健全的地方，或者设计上的瑕疵，这些问题可能都是最后会导致我们这个系统的一些质量上的问题，这是我们用探查技术包括数据质量技术应用于在不同的行业的。比如软件项目质量评测，软件质量监测是业界难题，目前都是白盒子测试，大家去做软件测试的时候都是按照脚本来测试，我按照脚本能符合我就行了，但是现在是通过数据来测试，这是打破了我们必须要读懂设计的文档才能做测试脚本的局限性，在不需要读懂设计文档只要知道数据就可以，我只要发现数据里面底层的逻辑之后，反馈到你的业务上是否一致性及相符。（备注：上述摘要根据现场速记整理而成，未经作者核对，如有错漏，请多多包涵）

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

机器学习 | 陶旭辉、郭峰——异质性政策效应评估与机器学习方法：研究进展与未来方向

加入我们 | 遥感与GIS数据分析师（实习）招聘公告

Python 教学 | 解密 Windows 中的 Path 环境变量

数据伦理 | 如何合规使用开源数据和软件？这几种常见协议你得知道！

Python实战 | 酷炫，Python实现交通数据可视化！

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

继续滑动看下一个

数据Seminar

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

大数据应用 | 谭海华：探究数据质量在人工智能大模型中的重要性

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

生成图片，分享到微信朋友圈

大数据应用 | 谭海华：探究数据质量在人工智能大模型中的重要性

您可能也对以下帖子感兴趣