专业团队

天元汇聚各领域精英律师,拥有200余名合伙人,800余名律师及专业人员,凭借深厚的执业经验和项目经验,为客户提供全方位、跨区域、综合性、一站式的法律服务和最佳商业解决方案。

专业领域

天元凭借30年法律实践经验和不断创新的执业能力,业务覆盖中国律师主要执业领域和新兴领域,并在诸多领域保持中国顶尖律师水准和跨团队综合服务能力,近年来连续承办了诸多开创先河的交易和极具行业影响力的项目和案件。

洞察资讯

天元律师紧跟行业发展趋势,聚焦法律热点话题,凭借独到视角和市场洞察力,帮助客户了解法律最新变化,用专业的观察、分析与见解助力客户做出更为明智的商业选择与决策。

关于天元

作为国内具有长远历史和深厚文化的领先律所,天元始终以法律服务为根本,不断探索和创新,30年来与中国经济同向前行,在中国15个经济活跃城市设立办公室,在业内享有盛誉。

企业数据合规——从认识数据开始
日期:2020年04月15日


文 |   楼奇 朱腾飞 吴晓洪自从欧盟《通用数据保护条例》(General Data Protection Regulation,以下简称“GDPR”)的正式实施,数据合规成为全球关注热点。而我国也在不断加快出台数据合规相关立法。企业数据合规业务已成为我国法律业务发展最快的领域之一。本系列文章将从数据合规的概念理论入手,展开相关实务研究,目的是为我国企业数据合规工作提供有益借鉴。
1.1 数据及相关概念
在《数字经济蓝皮书•基础篇•2019》中对“数据”作出了定义,“数据是数字的一种重要的表现,数字才是基础。数据往往是配合量纲等辅助参数,才能表征具体的含义和特征。它仅仅能够代表一批静态的数字所表达的数量概念。而且数据往往是成批出现的,在一批数据中,往往有一些是无效数据,要被处理过才能使用。数据的内容复杂多变,但数据的属性比较单一,远远没有象数字那样包含丰富的内涵。数据在保持原始性的前提下,数据可重复使用。”[1]
经常和数据关联使用的还有“信息”一词。在《数字经济蓝皮书•基础篇•2019》中“信息”也作出了定义,“信息是将相关数据经过汇整、筛选、分类、计算加工处理所得到的结果,信息是从数据中筛选出来的,是一种具有某种用途的消息。信息是互联网热潮中的主角,所有在互联网上表现出来的信息其实都是已经经过了加工处理,人们在互联网上见到的都可以称之为信息。但是在信息产生的背后是经过了大量的数字和数据的流转,经过了多道工序和处理,才形成了信息。”[2]
数据和信息的共同点即都直接反映客观事物。同时,数据和信息又相互关联:数据作为载体可表示信息,数据也可转换为信息;信息是数据所要表达的具体内容,即在处理后得到的有意义和价值的东西。数据经过不断处理和利用就可能直接成为富有意义和价值的“信息”,而这些 “信息”经再次分析又可变为可利用的“数据”。但抽象的数据难以为人所感知,只有转化为可理解的信息才有利用的价值。以公众采集的数据为例,其转化过程可以概括为:“包含可识别的、个性化信息的数据”→“经过匿名、清洁等处理的数据”→“通过设定规则,进一步分析后产生可利用信息的数据”。
从法律角度,我国的民法、刑法、诉讼法等法律中,也使用了“数据”或者相类似的概念。
在《民法总则》中,使用了“数据”一词,摒弃了《民法总则草案》中的“数据信息”的概念,但在《民法总则》中并未对数据的定义及法律属性进行解释。而《刑法》中也提到了“数据”一词,如“破坏计算机系统罪”中保护对象为“计算机信息系统中存储、处理或者传输的数据”,后续的《刑法修正案(七)》中也对上述罪行的适用对象进行了扩充,但是并未对“数据”一词进行法律解释。根据《<中华人民共和国治安管理处罚法>释义及实用指南》,“计算机信息系统中存储、处理或传输的数据”是指在计算机系统中实际处理的一切文字、符号、声音、图像等内容有意义的组合。”[3]《网络安全法》中对“网络数据”作出了定义,“通过网络收集、存储、传输、处理和产生的各种电子数据。”[4]综合上述各法律法规,并没有从法律上直接给出“数据”的定义,而是将数据搭配其他词语共同使用。
也有法院在司法判例中对“数据”一词作出定义。
在浙江淘宝网络有限公司诉杜某等三人网络侵权案中,法院认为“数据是指具有可分析性、可统计性、有使用价值的信息的总和,不仅包括原生数据,即计算机直接产生的数据,也包括这些数据被记录、储存、编辑、计算后形成的具有使用价值的衍生数据”[5]。从这个角度看,法院是以信息来定义数据。
通过以上分析可知,目前在我国法律上并没有对数据下一个统一的定义,但是从各个地方法规给出的条文分析,大致可以得出数据的概念,一般认为,数据是指通过计算机或者其他信息终端及相关设备组成的系统收集、存储、传输、处理和产生的各种电子化的信息。这些信息可以是个人信息、企业信息、公共信息等。
容易与数据相混淆的,还有“大数据”一词。
关于“大数据”的内涵与外延,存在多种解释。对于大数据的定义大多是从人类通过技术感知、技术处理后的商业价值等角度进行界定。例如,IBM公司对大数据界定的4V特征,即大数据量(Volume)、快速变化(Velocity),庞杂内容(Variety)和(不)精确性(Veracity);Gartner所定义的“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;麦肯锡所定义的“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。”[6]也就是说,大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。[7]根据国务院2015年8月31日颁布的《促进大数据发展行动纲要》给出的概念,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。但是大数据并不意味着是单纯数据的总和,通常大数据会对大容量的数据进行归类整合。比方说,一个人单纯的身份信息、健康检查资料、消费记录是数据,但是大数据通常会通过对上述数据的整合得出一个人的行动轨迹、财产状况等。
从以上概念,可以总结出大数据的几个特征:一是数据外延无限广泛,可以包括任何与人自身、人的行为、心理、精神世界及智力活动及其所产生的成果、物质世界(包括除人之外的任何生物及物质存在)等所有范畴;二是数据规模和数据量巨大;三是具有财产价值及属性,具有使用价值和交换价值;四是具有可复制、可传播和重复利用性。
从数据和大数据两个概念可以进一步衍生出另一个在大数据时代比较商业化的概念,即数据产品。
数据产品,广义上来说,可用于利用数据价值帮助用户做出更优决策(甚至行动)的一种产品形式。数据产品是数据经过识别、清洗、挖掘、建模分析等处理阶段过后,从大量的数据中筛选出有规律性且相关联的数据,经过分析且可视化操作后形成的。数据产品在用户做出决定和具体行动过程中既可作为信息分析展示也可作为价值体现,可以是经过处理的数据库,也可以是经过分析所得的数据报告等。从上述含义中来看,像搜索引擎、个性化推荐引擎以及淘宝中的消费习惯推荐属于数据产品;阿里云所拥有的数据来自于阿里巴巴所记录的用户个人信息、消费记录等也是属于数据产品。
通过对上述对数据、信息、大数据和数据产品的概念分析,可以对数据的商业价值进行以下判断:包含可识别的、个性化信息的数据,通常是由个体通过“消费、就医、外出活动”等系列民事行为所产生的结果,这些结果在特定场合中经过处理后产生了交换价值与使用价值。
具体地说,在数据采集过程中,数据采集方只是客观地收集数据,对数据没有进行任何处理、加工,因此也没有智力成果的创造,但是这些数据仍然包含着一定的权利、交换价值和使用价值。比如个人以其姓名注册商标,即具有商标权,注册公司,即具有商号权;又如某些房屋中介获得个人信息后,可以进行电话营销从而获取交易机会,即为一种使用价值,从这个意义上,房屋中介机构愿意出资去购买未经任何加工的个人信息,即个人信息具有交换价值。对大量数据采集,归类与整合,便形成了大数据。大数据经过匿名、清洁处理,成为数据产品。而大数据与数据产品是否具有智力成果属性,需要进行个案分析确定。比如某些金融科技公司采集个人信息后生成了类似个人征信的数据报告,应当说,这种数据报告是包含了一定的智力成果的,它是金融科技公司对数据进行整理以后形成的成果,整个数据整理的过程是金融科技公司投入智力活动的过程。这种数据报告具有巨大的商业价值,金融科技公司将这种数据该报告出售给借贷平台,借贷平台利用这些数据报告来决定是否放款以及放款的金额大小;借款人则可以根据该份报告向借贷平台申请借款。我们通常意义上所说的大数据商业利用,往往是指,通过设定规则,采集数据,进一步分析后进行归类、整理,并产生可利用信息的数据,再用于某些商业场合。所以经过加工而产生的数据产品,往往具有商业价值,能够带来经济收益,此类数据也往往成为商业活动中作为交易的客体。
1.2 数据分类
数据可以从不同的角度进行分类,在本文中,不再去对理论上的数据分类进行阐述,仅通过数据在日常中的使用进行介绍,从主体划分大致可以分为个人数据、企业数据、公共数据;从获取方式划分,可以分为原始数据和加工数据。
1.2.1个人数据
个人数据在法律实践中有多个提法,如“个人信息”,多数国家将“个人信息”视为“个人数据”。
个人数据的定义在欧盟出台的GDPR中得到确立,根据欧盟出台的GDPR中对个人数据的定义,第四条中,个人数据指“与已识别或可识别自然人(数据主体)相关的任何信息;可识别自然人是可被直接或间接识别,特别是可被姓名、ID号、位置数据、在线ID或特定于该自然人的物理、生理、遗传、心理、经济、文化或社会身份的多种因素参照的自然人。”而在我国,台湾地区的《个人资料保护法》中规定了个人数据是指自然人之姓名、地址、性别、身份证号等得以直接或间接方式识别该个人之数据。《网络安全法》以概况加列举的方式规定了个人信息的法律内涵,即个人信息是以电子或其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息”并列举了“自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等”这些比较常见的个人信息。
在《网络安全法》基础上,《信息安全技术个人信息安全规范》对个人信息进行了更加详细的列举和与个人敏感信息的划分,规定“个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。注1:个人信息包括姓名、出生日期、身份证号码、个人生物识别信息、住址、通信联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息、14周岁以下(含)儿童的个人信息等。注2:关于个人敏感信息的范围和类型可参见附录B。”并对于判定个人信息的标准也做了相应规定,“判定某项信息是否属于个人信息,应考虑以下两条路径:一是识别,即从信息到个人,由信息本身的特殊性识别出特定自然人,个人信息应有助于识别出特定个人。二是关联,即从个人到信息,如已知特定自然人,则由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。符合上述两种情形之一的信息,均应判定为个人信息。”
从上述法律规定中也可以得出个人数据的的判断标准,包括可识别性和关联性,即与个人相关的,能够直接或间接识别个人的数据。“可识别性”是个人数据的重要属性,但区分可识别性程度的工具是技术。数据搜集与再识别化技术的应用使得很多价值密度低的数据更易被赋予“可识别性”特征。商业机构通过有效组合和集成互联网用户的消费信息、网页搜集信息、社交网络上的个人信息、智能手机的位置信息以及智能电表使用信息等,可快速对某特定的自然人“塑形”。以智能电表的使用为例,个人生活用电时,每种电器在工作和通电情况下的负荷特征是不同的,智能电表能持续记录这些特征,并予以收集和存储。[8]通过分析用电数据,可了解个人在某一时间段打开的电器及相关活动,可利用长期积累的数据推测人们的生活习惯。
个人信息在如今的大数据时代往往能被用于商业行为,由于数据很大程度上是通过个体呈现出来的,规模化之后可以体现某个个人、行业、人群或者圈层的特点,所以对于数据进行挖掘研究,得出个人消费的喜好、某种趋势或者特征的启发,进行精准营销,效果非常明显,这就涉及到一个商业上的概念“用户画像”。而这个词在国家标准《个人信息安全规范》(标准号:GB/T 35273-2017,主管部门:国家标准化管理委员会,开始生效日期:2018年5月1日)中有了明确定义:通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如其职业、经济、健康、教育、个人喜好、信用、行为等方面做出分析或预测,形成其个人特征模型的过程。注:直接使用特定自然人的个人信息,形成该自然人的特征模型,称为直接用户画像。使用来源于特定自然人以外的个人信息,如其所在群体的数据,形成该自然人的特征模型,称为间接用户画像。[9]当然,在企业使用用户画像时需要遵守个人信息保护的相关规定。
但是,“个人信息”和“个人数据”这两个概念根本上还是存在区别,个人数据是附着在电子信息系统载体的客观事物记录,是未经过处理的个人原始记录,其不能脱离电子信息系统载体而独立存在,如个人体检在医院电子信息系统留下的原始记录;而个人信息是指个人数据经过加工处理后,形成的具有使用价值的内容——信息,而且可以脱离电子信息载体而独立存在,如个人体检的电子数据经过医生的分析和系统的处理,形成的具有使用价值的体检报告,其存在的形式可以是电子状态,也可以是纸质状态。由此可以得出:个人信息=个人数据+分析处理。但是由于国内并没有对此进行特别的区分,且个人信息也囊括在个人数据的范围内,所以上文所说的个人信息也归为个人数据中。
1.2.2企业数据
企业数据泛指所有与企业经营相关的信息、资料,包括公司概况、产品信息、经营数据、研究成果、大数据分析报告等等,其中不乏涉及商业机密。而企业数据中还可以分为企业公开数据、半公开数据与非公开数据。企业公开数据最典型的是公司概况,一般在企业查询平台、企业官网上均进行了公示;还有比较典型的是互联网平台上的海量数据,比如微博上的用户信息及用户评论,这类信息接通了互联网,也就是说进入了一个公共的领域,均进行了公开。企业半公开数据即企业拥有的数据是部分公开或半公开的,比如说数据库,数据库中的数据对部分人群开放而非全面开放,对于这类数据通常不是每个人通过搜索就能获取,或多或少需要经过一定的媒介或者付出相应的代价才能得到。企业非公开数据,商业秘密是典型的企业非公开数据,当然形成商业秘密的可以是企业的研究成果、经营数据等,这类都可以成为企业非公开数据,具有保密性;除商业秘密外,企业通过采集大数据并经过清洗、整理形成了企业自己的数据库或者数据报告,也属于企业数据。
1.2.3公共数据
公共数据的概念比较好理解,即公共数据主要是指政府在行政执法过程中产生的信息,比如法院诉讼、气象监控等这些活动所带来的信息。比如气象信息、科学数据(科学数据主要包括政府在自然科学、工程技术科学等领域,通过基础研究、研究应用、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并适用于科学研究活动的原始数据库或其衍生数据)以及政府公开信息资源(政务部门在履行职责过程中制作或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类信息资源,包括政务部门直接或通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的信息资源等)等。
由于这些信息是因为政府和法律的强制力产生的,对于企业和个人的生产、经营、履约有一定的影响,也涉及到公众和他人的利益。[10]因此,对于公共数据应该加大公开的力度,通过以社会公众周知的方式让社会公众直接获取相关公众数据,减少社会搜寻信息的成本。
结合社会发展中的实时情况,2020年初疫情的爆发使得全国人民都自觉自发地在家自我隔离,同时社会公众每日通过新闻、微博、支付宝以及短信等各种方式可获知疫情的最新数据及情。这类数据即为公共数据,通过公开疫情最新数据,能够让全国人民意识到疫情的严重性和病毒传播的广泛性,促使群众能够自发地配合政府进行自我隔离,减少了政府对抗疫情的成本,提高了效率。
1.2.4原始数据与加工数据
通过对数据的来源进行划分,可以分为原始数据和加工数据。
原始数据是指未经过加工或者处理的数据。而加工数据则刚好相反,所以经过深度挖掘、处理或者加工的数据是加工数据。原始数据主要反映在个人信息上,直接获取到信息,就个人信息而言,个人的姓名、身份证号、电话号码等数据在刚获取时均为原始数据。加工数据则是指当企业将这些获取到的个人信息中的敏感数据通过脱敏规则进行数据变形后得到的数据。
当企业需要处理涉及客户安全或一些商业性敏感数据时,在不违反系统规则前提下,需对真实数据改造并提供测试,如身份证号、手机号、卡号、客户号等个人信息都需进行数据脱敏处理,只有通过脱敏处理后方可使用。不管是加工处理后的个人信息,还是纯粹的商业数据信息,因为通过对数据深度加工、整理挖掘的过程中,投入和付出了相对的人力、财力和物力,所以加工数据往往都具有加大的商业价值。
只有对数据的相关概念和分类深入研究,才能进一步开展企业数据合规工作。近年来,我国对数据合规的立法不断加深,包括了《网络安全法》以及《全国人大常委会关于加强网络信息保护的决定》等,数据合规法律法规体系不断完善。相关企业也对数据合规工作日益重视。后续,我们将进一步展开不同领域的数据合规研究,构建企业数据合规体系,为企业创造价值。
注释
[1]《数字经济蓝皮书•基础篇•2019》,主编单位:杭州数字经济联合会、杭州自动化技术研究院。
[2] 《数字经济蓝皮书•基础篇•2019》,主编单位:杭州数字经济联合会、杭州自动化技术研究院。
[3] 全国人大常委会法制工作委员会刑法室《<中华人民共和国治安管理处罚法>释义及实用指南》,中国民主法制出版社2012年版,第92页。
[4] 《网络安全法》第七十六条第四项。
[5] 浙江淘宝网络有限公司诉杜某等三人网络侵权责任纠纷案,一审判决书:(2018)苏0684民初5030号。
[6]瞿淼,《金杜律师事务所| 数据为王:大数据时代数据的法律属性及保护》,金杜研究院,2016.4.26。
[7]《大胆猜想:未来五年哪些技术方向最火?》,《苏宁财富资讯》,苏宁金融研究院金融科技中心高级研究员刘培彬。
[8] 黄道丽、张敏,《大数据背景下我国个人数据法律保护模式分析》,人民网理论频道,2015.7.10。
[9] 《个人信息安全管理条例解释》,云栖社区,阿里云,2019.11.19。
[10] 吴晓灵:大数据时代数据所有权的原则是什么?_网易科技,2015.12.16.


相关领域