湾区时讯 8月26日上午,CCF YOCSEF成都“数据流通隐私保护关键技术”论坛在成都IFS国际金融中心2号办公楼43楼百度公司会议室顺利举办。论坛由中国计算机学会主办,CCF YOCSEF成都学术委员会、百度飞桨协办。论坛由YOCSEF成都AC委员张晓均(西南石油大学)和杨彦兵(四川大学)担任论坛执行主席,YOCSEF成都AC委员李海(爱奇艺)和刘昶(成都大学)担任线上主席。来自西安电子科技大学、四川大学、电子科技大学、西南交通大学、西南财经大学、青岛大学、西南石油大学、成都理工大学、四川师范大学、西南民族大学、西华大学、成都大学等省内外高校研究学者,还有来自四川大学华西医院、四川省人民医院、四川省公安厅、中电科30所、电科网安、中国国航、四川久远银海软件股份有限公司、雅安数字经济运营有限公司等单位的行业专家,以及来自CCF YOCSEF总部、西安、郑州、青岛、重庆、成都等论坛的AC委员们共计50余人参加了本次论坛。
近年来,随着数字经济的飞速发展,数据已成为继土地、劳动力、资本、技术之后的第五大生产要素。尤其是在2022年12月国务院公开发布《数据二十条》后,针对数据确权、安全流通、定价交易等关键环节和支撑技术的研讨越来越多。在此背景下,CCF YOCSEF总部统筹策划了“数据要素可信跨域流通关键技术”系列技术论坛,并由CCF YOCSEF总部AC委员盖珂珂(北京理工大学)和范举(中国人民大学)担任系列论坛执行主席。本次“数据流通隐私保护关键技术”技术论坛为“数据要素可信跨域流通关键技术”系列论坛的成都站,重点关注数据流通过程中隐私保护技术;聚焦医疗数据流通场景,思辨隐私保护的实用化技术;针对生成式大模型等新兴技术对医疗数据流通隐私保护的挑战,探讨可能的应对方案,为探索更好的数据流通隐私保护技术提供潜在智力支撑,特别是为医疗行业数据可信流通提供新的思路。
论坛开场环节,CCF YOSCEF主席高志鹏(北京邮电大学)简要介绍了CCF YOCSEF的成立背景、目标宗旨和发展情况。随后,系列论坛执行主席、CCF YOCSEF总部AC委员盖珂珂介绍了“数据要素可信跨域流通关键技术”系列技术论坛的背景及前序论坛的基本情况,分享了系列论坛的总体规划。最后,本次分论坛执行主席、CCF YOCSEF成都AC委员张晓均介绍了“数据流通隐私保护关键技术”技术论坛的基本情况和论坛议程。
引导发言首先是西安电子科技大学苗银宾的《数据流通隐私攻击与防御》。银宾深入浅出地阐述了数据流通的必要性和带来的隐私问题,详细介绍了数据采集、传输流通、价值释放和数据销毁等数据全生命周期各个环节可能存在的隐私泄露与被攻击问题,并分享了基于分布式雾计算的隐私保护的传感器压缩数据去重方案、支持模型压缩千倍以上的低通信联邦学习框架和可验证的异步联邦学习算法等技术,为数据流通中隐私防御与保护提供可能的解决方案。
第二个引导发言来自四川省人民医院吴行伟的《医疗行业多类型数据流通与隐私保护思考》。行伟介绍了医疗场景中的数据流通环节、医疗数据类型及其存在形态,介绍了医疗数据流通管理现状。他指出管理部门需制定合理规则、明确隐私界限以及隐私保护等级;另一方面更需要加快隐私保护技术突破,构建良好医疗数据流通生态,形成多学科交叉领域合作,以期更好地利用海量医疗数据、充分释放医疗数据的价值,造福社会。
第三个引导发言来自四川大学雷文强的《大模型与隐私计算》。文强指出由于大模型的训练需要海量数据,而数据中可能包含隐私数据,因此大数据的脱敏是很具挑战性的问题;其次,生成式大模型产生的内容具有不确定性,导致其生成的结果中也可能包含隐私数据,从而引发隐私泄露的问题。最后文强提出,如何让大模型学会遗忘隐私数据,如何对可能涉及隐私的知识进行定位和修改,是数据隐私计算、大模型等领域的研究者需要共同思考的问题。
在本次技术论坛的思辨环节,与会嘉宾和与会人员围绕数据流通隐私保护关键技术,针对三个思辨议题展开激烈的讨论和思辨。
思辨议题1:数据流通中,隐私攻击的主要类型有哪些?
电子科技大学张源认为,针对数据隐私的攻击,不仅会侵害个人的利益,也可能对群体造成伤害;攻击者可能不直接窃取内容,但会从数据的使用频次中推测出数据本身的隐私,从而造成数据隐私内容泄露。来自西华大学的曾晟珂指出,虽然现在的密码技术可以对用户隐私形成一定的保护,但是数据在流动过程中,由于密钥分发,多方使用不对称数据,攻击者依然可能通过多维数据关联等方式窃取数据隐私。四川省公安厅唐尧提出,在特定的时间点或者事件下,无意泄露的中性信息也可能造成某一群体数据的隐私泄露,此外还存在终端攻击以及侧信道攻击方式。
四川大学华西医院殷晋指出医疗数据隐私保护技术要在医疗场景落地,不仅需要关注隐私保护效果,也需要考虑其实用性,除了要考虑患者的隐私,还要考虑医生以及医疗机构的隐私。电子科技大学丁熠认为,从技术上来说,现有的医疗数据的隐私保护技术都不是很实用,并且隐私保护加密会极大增加数据使用难度,当下最为实用的医疗数据隐私保护可能是管理部门制定的合理数据使用规则。青岛大学张翰林指出,医疗数据隐私对个体和群体是不一样的,并且现有数据加密隐私保护的相对低效,并不影响数据的使用和分析。翰林提出同态加密训练对小规模密文训练有效,并且计算时间开销是线性增长的,因此可能应用于医疗数据流通场景的数据隐私保护。中电科30所张经纬提出,针对电子病历、影像数据等不同类型的数据,可以采用差异化脱敏技术和数据清洗技术,对数据先进行初步加工,然后再进行隐私保护。四川大学李贝贝认为需要对数据隐私做分类分级分时保护:可以先提取出数据的特征,再将特征进行加密来降低隐私保护开销。河南大学张磊提出实用化的隐私保护技术应能防止关联隐私攻击,在相对封闭的场景下通过沙盒技术来使用数据,在使用后还需安全销毁数据。
思辨议题3:生成式大模型将给医疗数据流通隐私保护带来哪些新的挑战,未来怎么应对?
四川大学张意认为生成式大模型可能反演出训练数据并且生成伪医疗记录,可能会对常规的隐私保护规定和技术造成未知风险,提出同态加密、分布式本地参数训练或许是可能的应对手段。四川大学华西医院陈斌提出针对大模型的隐私保护技术需要合理的规划医疗数据使用规范,也要进一步让从业者充分认识和理解大模型。中央新影数字传媒公司严怡惠认为,在生成式大模型威胁下,当下很难有好的数据隐私保护方法,但可以采用数据脱敏、联邦学习数据训练方法,尽量减小数据被关联的可能性。西华大学陈晓亮认为,大模型一方面可能带来隐私风险,但也可以用于隐私保护,例如可以对要流通的数据进行大模型加工,从而实现对源数据的隐私保护。中国人民大学范举则指出大模型生成的数据本质上是需要符合原始数据的概率分布,生成的数据可能还是会体现源数据的特点,是否真的能保护源数据隐私。来自成都大学的苗放指出数据隐私保护是个复杂的问题,但也是数据流通的基础问题,可以根据数据的本身属性和业务属性进行必要划分,从而让大模型等技术也只能学到数据特性,但是不能反演业务数据,从而实现不同层级的隐私保护。
思辨环节输出以下结论:
1. 数据流通中隐私攻击的主要类型:针对数据本身的隐私攻击是数据流通过程中主要的隐私攻击类型。此外,利用数据训练得到的模型及其模型参数的泄露,也会反推数据隐私的特性,因此模型隐私攻击也是一种可能的隐私攻击方式。当然针对数据流通中,也会存在部分数据隐私攻击与部分模型隐私攻击相结合,推测出全部数据和完整模型的增强型隐私攻击类型。
2. 医疗数据流通的隐私保护实用化技术:将医疗数据做分类分级分时预处理,提取医疗数据的特征,再将特征进行加密来降低流通中的隐私保护开销;采用同态加密等技术实现对密态数据计算与分析;针对电子病历、医学影像数据等不同类型的数据,可以采用差异化脱敏技术和数据清洗技术实现数据的加工与处理,促进隐私保护流通;在相对封闭的场景下,可以通过沙盒技术来使用数据,在使用后还需安全销毁数据。
3. 应对生成式大模型给医疗数据流通隐私保护带来挑战的策略:合理规划医疗数据使用规范,让从业者充分认识和理解大模型;根据数据的本身属性和业务属性进行划分,让大模型等技术只能获取数据特性,而不能反演业务数据;采用数据脱敏、联邦学习数据训练方法,减小数据被关联的可能性。
最后,两位执行主席为思辨引导嘉宾颁发了感谢牌。CCF YOCSEF成都现任主席牛宪华进行了论坛总结发言,并预告了YOCSEF成都的下一次活动—将于2023年9月23日举办的《开源生态下的超算软件技术的发展之路》技术论坛。
通讯员/牛宪华
编辑/刘秀