警惕!AI正在“吞食”你的数据

福建在线2023-11-27

      视觉中国供图

□ 科普时报记者 陈 杰

AI大模型的热度,已然开始从产业向日常生活渗透,并引起不小的舆论旋涡。近日,网友指出国内某智能办软件有拿用户数据“投喂”AI之嫌,引发口水的同时,再度把公众对AI的关注转移到数据安全上。

身处智能时代,我们在使用或跟AI交互时,该如何保护自己的数据安全?我们的个人数据可以被AI产品或平台随意收集和使用吗?科普时报记者就这些公众关心的问题采访了产业相关人士及行业专家。

AI普遍缺乏“营养”

此次舆论事件,以修改引发误会的隐私政策并承诺不会拿用户文档训练AI而暂告一段落。但清华大学人工智能研究所博士、独到科技CEO张文浩告诉记者,“以用户数据训练AI,在大模型行业普遍存在。”

今年7月份,谷歌及其AI子公司DeepMind、视频会议平台Zoom均因收集用户数据用以训练和开发AI产品而引发用户强烈担忧……

“数据被比作信息时代的‘石油’,重要性不言而喻。”文渊智库研究员王超告诉记者,用于训练数据的丰富程度和质量决定了AI的优劣,也只有优质海量的数据“投喂”,才能培养出更聪明、更先进的版本。

iEnglish智能英语学习解决方案技术研发负责人贾先好表示,2018年GPT迭代使用了1.1亿学习参数,到2020年GPT-3已达到惊人的1750亿参数。“这些迭代的背后是45TB的海量文本数据,AI其实是一场包含海量学习参数在内的纯粹工程化的胜利。”

当下,全球各大科技公司发布的AI大模型已超数百个,而用于训练这些大模型的数据虽然海量但缺少精细“营养”,这也让快速迭代中的AI普遍都“吃”得不怎么好。

用户的数据“真香”

训练AI所需的海量数据,目前主要的来源包括互联网抓取的数据、网络百科全书、书籍文献,以及一些开源数据集等公开数据。但新壹科技技术副总裁陈鹏认为,这些数据仅有数量优势,而缺少让AI变得更聪明的高质量数据。“鉴于用户数据的多样性、真实性,以及个性化等特征,很多公司和机构会收集一定的用户数据来进行训练,提高AI模型的准确性和可靠性。”

“在AI训练中,普遍使用的RLHF(基于人类反馈的强化学习)技术就需要在迭代过程中不断根据人类反馈来优化自身行为,有助于提高机器在不同场景下的泛化能力,使其行为更加符合人类期望。”张文浩表示,RLHF技术在模仿学习阶段需要使用用户的交互数据来改进其策略,这也是优化用户体验的一种方式。

用户数据之所以被AI相中,是因为这些数据的内容非常丰富,基本上涵盖了各个领域和主题,正是AI训练所急需的“精料”。

训练AI要守“底线”

对于AI而言,用户数据确实很“美味”,但对于用户而言,过度的采集可能对个人信息安全和财产安全造成不小的威胁。

“用户数据用于训练AI时会被分析和解读,并揭示出用户诸如个人喜好、行为习惯、健康状况等隐私信息。”陈鹏表示,这些信息一旦被非法利用,就会导致用户身份盗窃、网络诈骗等情形的发生。

中国广告主协会互联网电商分会秘书长张俊良提醒,用户数据被“投喂”给AI,非常容易带来用户核心信息的泄漏。“所以,我们在使用大模型或者跟大模型交互时,尽量避免透露自己的隐私信息。”

用户数据可以用于AI训练吗?陈鹏认为,过度收集用户数据不可避免地会面临诸如隐私安全、数据合规性的挑战。“不过,现在行业内已经开始通过数据脱敏、加密技术和审计技术等来保护用户数据隐私了。”

贾先好表示,在数据的生产、保存、读取、更改、迁移、存档等生命周期内,AI企业应该采取相应的安全措施,以确保这些数据不会被未经授权的访问、篡改或者滥用。

其实,今年8月15日起实施的《生成式人工智能服务管理暂行办法》就明确,应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。

张文浩建议,各大科技公司应遵守相关法律法规,确保数据收集、处理和使用的合法性。“总之,企业在做AI训练时,应严格遵循个人数据使用‘最小化原则’,要守得住‘底线’。”

王超则认为,《生成式人工智能服务管理暂行办法》给国内AI产业指明了方向,也划定了范围。“但仅凭一部暂行办法并不能解决所有问题,AI是一次底层的技术革命,未来一定会碰到更多的问题,这就需要监管部门及时有效制定出监管措施,进一步规范产业的发展。”

 

免责声明

本文登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606

雪域高原的“平安承诺”:4500米上的橙色守

在平均海拔4500米以上的西藏阿里改则县,空气稀薄、气候严寒,广袤的草原一望无际,牦牛群

林芝市领导到平安产险林芝中支走访慰问

元旦前夕,林芝市常务副市长黎世江带领中国人民银行林芝市分行和国家金融监督管理总局林芝

平安送暖 点亮牧区——改则支公司为高原牧

2026年1月15日,平安产险西藏分公司在阿里地区改则县先遣乡那日村举行太阳能户外移动电源捐

零犀科技发布汽车销售智能体 AI从工具转变

近日,零犀科技正式推出“汽车销售智能体CaRhino”,标志着具备自主决策与行动能力的AI智能

新鲜出炉:沙利文2026 医疗健康行业年度标

近日,东软“添翼”AI 2.0凭借在医疗行业深度场景渗透、全链路技术创新及超百家医疗机构规

东软押宝AI医疗赛道 精准布局收获行业硕果

在科技飞速发展的时代,每一个新兴领域的崛起都伴随着无数企业的探索与抉择。2025年是AI医

3201级台阶、1500名选手、599米天际线!202

1月10日,“2026国际垂直马拉松”在粤港澳大湾区第一高楼深圳平安金融中心鸣枪开赛。本次赛

守护男性生命力:动力仁·锡镐镐牌金海龙胶

在快节奏、高压力的现代社会中,超过60%的成年男性面临着精力下降、免疫力减弱的健康困扰,

临床研究新发现:非药物的NSKSD纳豆激酶降

近期,一项来自中国的临床研究成果《NSKSD纳豆激酶改善无症状性颅内/颈动脉狭窄患者脑血流

打破健身“高端”滤镜,凡铁德力让加盟商真

轻资产、快回本,助力加盟商稳健经营“预付费模式越来越难做!”“投入百万开健身房,回本