当前位置:网站首页 > 数据科学与大数据 > 正文

大数据培训心得(大数据培训心得范文)



5月15日,我院研究生2024年上半年第一期(总第一期)读书报告会在人文楼A307教室举行,本次读书报告会分享的是维克托·迈尔·舍恩伯格的著作《大数据时代:生活、工作与思维的大变革》。报告人为曹凤宇、高灏、解佳茁,指导教师为李晶晶老师。

作者简介

维克托·迈尔·舍恩伯格,1966年出生于奥地利萨尔茨堡州,奥地利著名的数据科学家。他是十余年潜心研究数据科学的技术权威,是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。曾先后任教于世界最著名的几大互联网研究学府。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中心网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。


舍恩伯格的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上。所著《大数据时代》一书是开国外大数据系统研究的先河之作,而他的《删除》一书,同样被认为是关于数据的开创性作品,并且创造了“被遗忘的权利”的概念而在媒体圈和法律圈得到广泛运用。该书获得美国政治科学协会颁发的唐·K·普赖斯奖,以及媒介环境学会颁发的马歇尔·麦克卢汉奖。同时受到《连线》、《自然》、《华尔街日报》、《纽约时报》等各大权威媒体广泛好评。

本书简介

《大数据时代:生活、工作与思维的大变革》是国外大数据研究的先河之作,维克托·迈尔·舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。

主要内容

《大数据时代:生活、工作与思维的大变革》这本书共有八个章节,分为三大部分。第一部分为大数据时代的思维变革,作者在这部分提出了“三个命题”,即“更多”、“更杂”、“更好”,以此说明了了大数据正在改变我们的生活以及理解世界的方式。第二部分为大数据时代的商业变革,在一切皆可“量化”的时代,作者论述了大数据在商业领域的具体应用案例。第三部分为大数据时代的管理变革,大数据虽然无所不能,但也使我们时刻都暴露在“第三只眼”之下,作者对于“数据主宰一切”产生了隐忧,最后也提出了责任与自由并举的信息管理变革来应对这些风险。

第一部分:大数据时代的思维变革

第一章:更多:不是随机样本,而是全体数据。

在传统的数据时代,因为一些技术条件的限制,对数据的记录储存还有分析这些工具都还没那么先进,所以为了让分析变得更简单的,我们就会把数据量缩减到最少,这就导致了我们有一种无意识的一个自省,即我们把数据的收集的困难看作是一个自然而然的东西,但是没有意识到,这只是当时技术条件下的一种人为的限制,所以就养成了尽可能少的使用数据这个习惯。即使到现在可能也会有这种情况,我们还是习惯于在信息匮乏的一个前提下去做很多事情,甚至使用尽可能少的信息,去证明尽可能大的重大的发现,比如统计学,就是这种研究模式。但是传统的随机采样具有一定的局限性,比如采样的随机性非常困难,随机性会受到人为因素的干预;随机采样不适合考察子类别的情况,随机采样调查出来的数据不能用来分析计划以外的目的;采样忽视了细节考察,只能对事物进行总体上宏观上的把握,具体的细节则模糊不清。而大数据时代“样本=总体”的全数据模式可以有效地避免这一情况。

第二章:更杂:不是精确性,而是混杂性。

历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。事实上,对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德·克罗斯比的话来说就是“测量现实”。但是20世纪量子力学的发现永远粉碎了“测量臻于至善”的幻梦。在大数据时代要达到数据格式一致的精确,就必须要有一个数据清洗的步骤,这个步骤是非常耗时耗力的,并且也不需要这样的步骤,大数据的核心是预测,是进行可能性的判别,是用概率说话的,所以不是一个确凿无疑的判断。当数据量达到一定的规模量级时,确切的数据数量已不那么重要了。比如在抖音平台对喜欢的作品进行点赞的时候,当点赞的数量不多时,会显示 像“53”这种精确的数字。当数量很大时,则只会显示近似值,比方说“10.3w”。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

第三章:更好:不是因果关系,而是相关关系。

第二部分:大数据时代的商业变革

第四章 数据化 一切皆可量化

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望,计量和记录的需求是数据化的前提,它们一起促成了数据的诞生,是数据化最早的根基。数字化带来了数据化,但是数字化无法取代数据化。

大数据的核心是挖掘出庞大的数据库独有的价值,而数据化的实现要从潜在的数据中挖掘出巨大的价值,从不可能的事物中提取信息将其转化成及其有用的数据,然后揭示出新的深刻洞见。信息技术变革随处可见,关注信息的本身更为关键,数据化的核心是量化一切,一切事物皆可数据化,作者详细说明了文字数据化、方位数据化和沟通数据化,展现大数据的预测功能,将信息转化为对现在和将来的预测,数据化甚至揭示并且预测人类的行为。

本质上,世界是由信息构成的,在拥有了数据分析的工具以及必需的设备之后,我们就可以在更多领域、更快、更大规模地进行数据处理。将世界看作信息,看作可以理解的数据的海洋,为我们提供了从未有过的审视现实的视角,它是一种可以渗透到所有生活领域的世界观。

第五章 价值 “取之不尽,用之不竭”的数据创新

在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象,而在大数据时代,数据的价值从它最基本的用途转变为未来的潜在用途。大数据正在被用来创造新的价值,数据的基本用途为信息的收集和处理提供了依据,但数据的价值不会随着它的使用而减少,而是可以不断地被处理,数据的价值不仅限于特定的用途,它可以为了同一目的被多次使用,也可以用于其它目的。

数据是需要选择价值的,判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途,在大数据时代,我们拥有思维、创造力和工具,来释放数据的隐藏价值,最终数据的价值是其所有可能用途的总和,实际意义的选择的总和就是数据的价值。

基本再利用、合并数据集、可扩展数据、数据的折旧值构成了数据的选择价值的四种常见的释放方式,数据废气、开放数据作为独特的方式也构成了数据的选择价值。数据价值的关键是看似无限的再利用,即它的选择价值,数据的收集固然重要,但大部分数据价值在于它的使用,而不是占有本身。


第六章角色定位 数据、技术与思维的三足鼎立

我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身来挖掘。根据提供价值的不同来源,分别出现了三种大数据公司——基于数据本身的公司、基于技能的公司和基于思维的公司,但是过分强调技术和技能而忽视数据本身的重要性是不可取的,技术是外在的力量,数据才是最核心的部分。

大数据公司的多样性表明数据价值的转移,随着数据价值在于它的使用转移到数据拥有者手上,传统的商业模式也被颠覆了。人类从依靠自身判断做决定到依靠数据做决定的转变也是大数据作出的最大贡献之一,随着管理决策越来越受预测性分析师和大数据分析的影响和控制,由直觉做决定的情况将会被彻底改变。

在大数据时代,企业的规模仍然很重要,但是更重要的是数据的规模,大数据服务以创新思维为基础,将数据转化为价值。大数据甚至能够撼动国家竞争力,优化生产和服务,并催生新的行业。

第三部分:大数据时代的管理变革


第七章 风险——让数据主宰一切的隐忧


互联网时代我们的隐私受到了威胁,那么大数据时代是否会加深这种威胁呢?这就是大数据的不利影响吗?答案是肯定的,而且还会带来更多的威胁,毕竟大数据的核心思想就是用规模剧增来改变现状。

隐忧之个人隐私被二次利用


大数据道德价值不再单纯来源于它的基本用途,更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须再收集工作开始之前征得个人的同意。大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新型的用途。公司无法告知个人尚未想到的用途只要没有得到许可,任何包含个人信息的大数据分析都需要向个人征得同意,这需要耗费极大的人力物力。

隐忧之大数据替代人行使定罪权力


大数据具有非常高效完善的预测功能,可以系统通过预测来预防犯罪,最终精准到谁会犯罪到这个级别。基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对其负责。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择生活的权利。在人们真正犯罪之前对其进行惩罚否定了人的自由权利,也否定了当下法律系统的无罪推定原则。

总之,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志。

隐忧之数据独裁


除了我们的隐私与自由,大数据还加剧了一个旧威胁:过于依赖数据。而数据远远没有我们所想的那么可靠。

舍恩伯格在另一本大数据系列《删除:大数据取舍之道》中,就数据独裁的隐忧进行了探讨。过度依赖数据可能会加剧信息富民与信息贫民间的鸿沟,拉大信息控制权的差异;还会对我们的认知、决策和对时间的认识产生影响:当数字记忆与自己的记忆相矛盾,我们是否还会相信自己的记忆。

第八章 掌控:责任与自由并举的信息管理

一场管理规范的变革


我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。

大数据时代,大数据早已推动我们去重新考虑最基本的准则,并且需要全新的制度规范,而不是修改原有规范的适用范围。必须重新定义公正的概念,以确保人类的行为自由;新机构和专家们需要设计复杂的程序对大数据进行解读,挖掘出其潜在的价值和结论。

管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任


互联网时代,全球范围内的隐私规范基于人们自主决定是否、如何以及由谁来处理他们的信息,把控制权放在人们自己手中。在大数据时代,隐私保护模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。

未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。社会必须平衡二次运用的优势与过度披露所带来的风险。为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。

管理变革2:个人动因VS预测分析


作者认为,在大数据时代关于公正需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志,即个人可以并应该为他们的行为而非倾向负责。

保护个人责任也同样重要。社会无论何时做出关乎他人的决策时,都不在确保他们承担责任。大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来对待:当作有行为选择自由和通过自主行为被评判的人。

管理变革3:击碎黑盒子,大数据程序员的崛起


大数据的运作与发展催生出对运用新技术的专门人才的迫切需求。大数据时代需要属于自己的安全和隐私顾问,因此,舍恩伯格提出了“程序员”这一角色。

程序员有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司内部的会计人员和进行鉴证的外部审计师。

程序员必须保证公正和保密,可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一但出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。

管理变革4:反数据垄断大亨


精心达到平衡的数据独有权,是否能让社会大众从中获利?技术发展变幻莫测,无从定论,大数据也无法预测自己的未来。监管人员需要既大胆又细心,进而实现这两者的平衡。而反垄断法的发展历史也为此提供了可学习的经验。反垄断法遏制了权力的滥用,一旦确定了极重要的原则,管理者要将之付诸行动,以确保保护措施的实施到位。

正如印刷机的发明引发了社会自我管理的变革,大数据也是如此。它迫使我们借助新方式来解决长期存在的挑战,并且借鉴基本原理对新的隐患进行应对。不过,推进科学技术进步的同时,应确保人类自身的安全。因此,我们不能让大数据的发展超出我们可以控制的范围。

结语


大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全取代。我们并非新勒德分子,技术的进步与发展是为了将人从简单机械的工作中解放出来,进而将精力投入到更高质的生产中。人类在决策时求助于数字记忆是人的一次自主选择。智能技术的出现是人类主动选择的结果。人类在生产过程中,主动寻找改变生产关系的外在力量来促成生产方式的变革,所以机器(智能工具)是“人的手创造出来的器官,是对象化的知识力量”,是为了提高人自身生产效率、使自身机能得到解放,从而有更多充裕时间去发展自己、提升自我的机遇。大数据为我们提供的并不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

媒体中心

编辑:曾佳禾

责编:陈梦卓

主编:张祎扬

渤海大学新闻与传播学院


到此这篇大数据培训心得(大数据培训心得范文)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 常用的中文期刊全文数据库(中文期刊数据库有哪些)2026-02-15 07:27:04
  • 数据中台建设要求加强(数据中台建设要求加强监督)2026-02-15 07:27:04
  • faiss数据库教程(factiva数据库怎么用)2026-02-15 07:27:04
  • Pymysql快速读取全部数据(pymysql 查询数据)2026-02-15 07:27:04
  • oracle数据默认端口(oracle数据库默认端口号修改)2026-02-15 07:27:04
  • 单向链表数据结构(单向链表数据结构有哪些)2026-02-15 07:27:04
  • 密码查询数据(查询 密码)2026-02-15 07:27:04
  • udp广播接收和发送(udp socket 接收广播数据)2026-02-15 07:27:04
  • sqlldr导入数据后要重建索引吗(sqlldr导入数据不全)2026-02-15 07:27:04
  • 学术数据库有哪些(学术论文数据库有哪些)2026-02-15 07:27:04
  • 全屏图片