姚前：ChatGPT类大模型训练数据的托管与治理

未央网| 2023-03-08 13:52:10

文/中国证监会科技监管局局长姚前

ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的一种人工智能应用工具。它能够通过学习人类的知识来进行交流，所以也被称为“聊天机器人”。ChatGPT甫一问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动，仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又实用，远超之前的自然语言处理应用，许多人认为这是一个划时代的产品，国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型（Large Language Models，LLM，下文简称大模型）应用。

(相关资料图)

ChatGPT的主要魅力在于，它利用从互联网获取的海量训练数据开展深度学习和强化学习，可以给用户带来全新的“人机对话”体验。海量训练数据可谓是维系ChatGPT进化的核心要素之一。

有研究预测，按照目前的发展速度，到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据，届时将没有新的训练数据可供使用。因此，算力瓶颈之外，训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑，大模型在训练数据方面还存在各种治理问题，比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。

由此可见，人工智能产业的高质量发展离不开高质量的训练数据，训练数据的安全合规使用是大模型人工智能长期健康发展的基础。本文将以ChatGPT为例，探讨大模型训练数据的来源以及未来使用合成数据（Synthetic Data）的发展趋势，分析大模型训练数据的合规风险以及监管介入的必要性，最后提出利用数据托管机制探索有效的大模型训练数据监管体系。

ChatGPT训练数据来源与处理流程

OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节，但可以从近些年业界公布过的其他大模型（如DeepMind发布的2800亿参数大模型Gopher）的训练数据推测出ChatGPT的训练数据来源。笔者整理了2018～2022年从GPT-1到Gopher的大模型的数据集（见表1）。

总的来看，大模型的训练数据主要来自于维基百科（Wikipedia）、书籍（Books）、期刊（Journals）、Reddit社交新闻站点、Common Crawl和其他数据集。

数据的质量对于大模型的训练至关重要。在模型训练之前，通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括：去重，即去除重复的文本数据，一般以句子为单位；文本正则化或标准化，如全角字符转半角字符，繁体中文转简体中文等；文本清洗，即剔除超文本标记语言（html）或者表情符号（emoji）等非文本内容，并对标点符号进行过滤和统一；分词，即将句子拆分成单个的词；词的清洗，如去除停用词等；词的正则化或标准化，如统一数字的写法等。经过以上预处理流程，通常可以得到质量相对较高的文本数据，防止数据中的噪声对模型的训练产生不良影响，有助于后续模型的高效训练。

除了上述常规操作之外，在一些特定的处理任务中，数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如，若要构建一个金融领域的知识系统，那么最好把大模型训练数据中与金融领域相关的数据筛选出来，这样可以提升模型生成的文本与金融领域的匹配程度，使模型的输出看起来“更专业”。

合成数据将成为大模型训练数据的新来源

当前，大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话，数据短缺的问题将成为训练瓶颈。对此，合成数据将是一种有效的解决方案。

合成数据是计算机模拟技术或算法创建生成的自标注信息，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类：表格数据和结构化数据；图像、视频、语音等媒体数据；文本数据。在大模型的训练开发上，合成数据相比原始数据，可以发挥同样甚至更好的作用，实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始，而产业互联网领域的应用空间更为广阔，合成数据可以解决ChatGPT类大模型的潜在数据瓶颈，推动科研和产业的进一步发展。

合成数据可以精确地复制原始数据集的统计特征，但又与原始数据不存在任何关联，所以实际应用过程中的效果强于传统的脱敏数据，便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质，甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面：实现数据增强和数据模拟，解决数据匮乏、数据质量等问题；有效解决数据隐私保护和数据安全问题，这对于金融、医疗等领域尤为重要；确保数据多样性，纠正历史数据中的偏见，消除算法歧视；应对罕见案例，创建现实中难以采集的数据场景，确保大模型输出结果的准确性。

全球IT研究与咨询机构Gartner预测，到2024年用于训练大模型的数据中有60%将是合成数据，到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》（MIT Technology Review）将大模型合成数据列为2022年十大突破性技术之一，称其有望解决人工智能领域的“数据鸿沟”问题。可以预见，合成数据作为数据要素市场的新增量，在具备产业价值的同时，也可以解决人工智能和数字经济的数据供给问题。

目前，合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。在金融行业，金融机构可以在不提供敏感的历史交易信息前提下，通过合成数据集训练量化交易模型提升获利能力，也可以用来训练客服机器人以改善服务体验；在生物医药行业，可以通过合成数据集，在不提供患者隐私信息的条件下训练相关模型完成药物研发工作；在自动驾驶领域，可以通过合成数据集模拟各种驾驶场景，在保障人员和设备安全的条件下提升自动驾驶能力。

大模型训练数据的合规风险及监管必要性

从目前的情况看，ChatGPT类大模型输出侧的结果数据在自然科学领域的应用相对可控，但在社会科学领域的应用尚存在诸多不确定性。尤其值得注意的是，大模型过度依赖训练数据，因此在数据输入层面可能会存在恶意操纵的风险，包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如，有研究者指出，如果向大模型GPT-2输入“北京市朝阳区”， GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息，因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。还有研究人员称，ChatGPT经常在答案中重复和放大性别歧视及种族偏见，这是因为它的训练文本是从互联网中截取出的，而这些文本往往包含种族主义和性别歧视的语言，基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。此外，研究人员还发现，这类大模型在训练过程中还善于编造信息，包括杜撰历史日期和科学规律，而且很容易掩人耳目。以上这些风险都会对大模型最终的输出结果造成不良影响，有的甚至可能对社会经济造成巨大冲击，因此需要监管部门对大模型训练数据的来源进行必要的管控，保证大模型的输出结果符合公序良俗和法律法规要求，进而推动人工智能行业健康有序发展。

特别需要指出的是，大模型输入侧的训练数据来源如果不是互联网公开文本数据，通常需要数据主体的授权，否则会产生数据隐私保护和数据合规方面的问题。如前述所言，随着可用于训练的互联网公开数据被逐步“耗尽”，发展大模型产业急需增加合成数据的产能，而合成数据和互联网公开文本数据最大的区别是前者存在数据加工处理方。因此，对数据处理方的有效监管和对合成数据的有效治理以及数据权益分配就成为发展大模型产业的重中之重。

利用数据托管机制构建大模型训练数据监管体系

通常来说，数据活动相关方主要有六类——数据主体、数据处理者、数据使用者、监管机构、国家政府部门以及国际组织。数据主体产生原始数据；数据处理者采集和控制原始数据，并加工形成数据产品和服务；数据使用者从数据处理者获取数据产品和服务，用于商业目的；监管机构按职责对行业进行监管，比如反洗钱、反垄断等；国家层面对数据进行立法，并对数据跨境流动等进行管控；国际组织推动全球范围内的数据标准和规范。这一生态存在的突出问题是，传统的数据处理者过于强势，它们会利用技术优势和场景优势垄断数据输入和输出，无法保证数据权益分配过程中的公平性，对于监管机构来说也是一个黑盒子。

为了扭转上述困局，可以在数据活动中引入数据托管机构，将数据的存储、使用、管理职责相分离，由专业的数据托管机构承担数据存储，监督数据处理者的数据使用和服务，并收取和分配数据权益。数据权益主要分两块：一块是分配给数据主体的原始数据权益；另一块是分配给数据处理者的增值数据权益。数据托管还可以支持监管机构、国家有权部门开展数据流动监管、执法取证、数字税征收等方面工作。

为促进大模型训练数据的合规使用和高质量输出，需要加强对大模型训练数据的源头管控，特别是在国家层面对大模型训练数据进行规范，而数据托管机制恰好可以成为大模型训练数据监管的有力抓手。

可以考虑对大模型训练数据尤其是合成数据建立托管机制。监管机构则通过对训练数据托管方的约束，进一步规范大模型训练数据生产方和使用方的行为。数据托管方可按规定对大模型训练数据来源、数据处理方的处理结果以及数据使用方的数据流向和训练结果进行监测，确保大模型训练数据来源可靠，在数据标准、数据质量、数据安全、隐私保护等方面依法合规，以保障大模型输出结果的高质量并符合监管要求。

大模型产业发展与合规监管思路

数字经济高质量发展的关键是数据，抓住高质量数据这一“牛鼻子”，就能有效应对以数据为核心的科技创新和产业变革。当前AIGC（AI Generated Content，人工智能自动生成内容）和ChatGPT充分展现了高质量训练数据在产业价值创造中叠加倍增作用，大模型训练数据及其输出结果将会是未来社会和生产中的一种重要的数据资产，其有序流转并合规使用也是发展数字经济的应有之义。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局，并加强训练数据的依法合规监管，是促进大模型人工智能产业健康发展的关键。为此，笔者拟提出以下政策建议。

一是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面，应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点，供国内数据处理者使用。

二是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范；建立数据托管机制，对数据托管方进行约束，要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测，从而使得模型的输入、输出结果符合监管要求。

三是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟，以共建共享的方式建设；亦可利用区块链技术，基于联盟链或有管理的公链，完善源端数据治理机制，实现数据的链上托管、确权、交易、流转与权益分配。