首页 - 译文学习区 登录 注册
我们拒绝相信公共领域的谈话与我们自身的隐私传播有关。大数据往往被视为原始的自然之力,只能被利用。这些信念“养育”了政府的入侵理念和私人资本的强大力量。民众不知不觉地接受了天花乱坠的大数据宣传,不能清楚地理解正在发生的一切。

大数据就是人肉

  • 5117阅读
  • 0
  • 0评论
译者:sangba
发布:2016-07-08 09:52:09 挑错

来源:万古杂志

作者:Rebecca Lemov

时间: 16 June, 2016

译者:sangba(转载请注明:微信公众号“sangbatranslator”)

原文地址:https://aeon.co/essays/why-big-data-is-actually-small-personal-and-very-human

我们生活的这个时代,有时会被称为“PB时代”(拍字节,1PB=2^50字节)。“每天,我们都会创造出2.5兆字节数据(1兆字节=2^20字节)——世界上百分之九十的数据都是在过去两年内创造出来的。”这个流传甚广的说法出自于IBM网站上“大数据是什么”这个子话题。大众媒体也乐此不疲地对类似话题进行定期讨论。庞大的数字激发了民众对数据存储规模及其快速发展的热议。大数据概念已经深入人心。此外,在IBM网站的“大数据是什么”页面上,用户通过弹出请求可以开启与IBM代表的对话,订阅IBM提供的大数据服务。而大数据发展的大量机遇却似乎来源于民众对“大数据是什么”的解答。

答案尚未统一。然而,在出版业、商业和学术期刊领域,却出现了一个愈发迫在眉睫的问题——“大数据的独特性在哪儿”。大数据的定义五花八门,却不可思议地多是间接的表达。2013年,《哥伦比亚新闻评论》(Columbia Journalism Review)的一位作者将大数据描述为“一个包罗万象的称谓,描述分析大量数据理解世界的新方法”——这个说法相当于:大数据会越变越大……大数据由数据组成。有人则谈论大数据的转换属性。《连线杂志》(Wired magazine)的技术传教士Chris Anderson认为在大数据这个问题上人类已经抵达“理论的终端”——即如今世界上存在那么多的数据,无需创建假说来检测其科学性。如果人类能对数据进行合理的处理和分析,“(数据)会为自己说话”。还有很多人则诉诸于强调“三个V”的定义法:如果数据集拥有大量、高速和多样的属性,就能定义为“大数据”。“三个V”的定义法偶尔会加上第四个V——真实性,这个词有多种解释。公说公有理婆说婆有理,但至少,大数据唤起了人类去捕获整个种群信息的动力,为人类打开了可能性的新领域。

在这场激动人心的争论中,常常被人们遗忘或者暂时并不会被人们所考虑的是这个新创建的大数据到底是由多少个人数据(几乎都是主观的文字挖掘)组合制作而成。事实上,现在普遍流行的“3V”说法由工业分析师Doug Laney创造于2001年,当时用于描述数据管理中的关键问题,但经过重新解释后却用于定义大数据近乎无限的适用性和精确性。

当我将大数据话题引入哈佛课堂,我常常提及Charlton Heston主演的电影《超世纪谍杀案》(Soylent Green),这部反乌托邦科幻电影的故事场景设置在未来的2022年,污染、人口过剩和协助自杀是常态。人们依靠soylent公司定量配给的绿soylent(soylent-green,与电影同名)片剂为生,据称该食品由高能量浮游生物在装配线上生产制作而成,用于养活穷人。但Heston对食品的调查不可避免地揭露了其真实配料,电影中有一句广为流传的著名口号标记了他的发现(我认为这不算剧透):绿soylent是人肉!

同样地,如果换一种表达,即:“大数据是人肉!”

大数据的定义多种多样,但大多却并没有考虑其内在的人性,也没有有意图地抓住其内在的含意——即技术与改变人类自身定义方式之间的关系。人们平凡、甚少深思熟虑、看似微不足道的举动——譬如上Tweet、Facebook上点“喜欢”、上Twitch看视频直播、谷歌搜索、在线评论、一键购买甚至浏览掠过feed中的一张照片以及连同这些行为所蕴含的隐私——都在持续生产新数据集,数据集的优质使其与众不同并因此具有重大意义。这些数据集描绘了“模糊影像的我”(借用William Gibson描述海量数据痕迹的表达),将幽灵般的新生命增添进算法处理的成果。

最近,地理学者Rob Kitchin将大数据的“生产基地”进行了分类编目,包括零售购物记录、保存和传播其使用历史信息的电子设备(例如移动电话)、数字网络上的交易和交互日志(例如电子邮件和网上银行)、记录网站导航或者app导航的点击流数据、嵌入在对象或环境中的传感器测量数据、机器可读对象(例如旅行通行证或者条形码)的扫描信息、司机制造的“移动车载信息”以及网民在社交媒体上发布的帖子等。这些基地生产大规模动态流动的具有多样化和精细化属性的关系型数据。

2012年,沃尔玛每小时处理100多万次消费交易,生成2.5PB消费数据信息。同年,Facebook报道称其每天处理25亿个内容片段(链接、评论)、27亿个喜欢和3亿个图片下载。与此同时,颗粒数据的收集程式不断演变。今年二月,Facebook推出了一组多样化的emoji表情按钮——共6种,用户做出点击响应时可选择的情感幅度和情感特异性表达变得更加丰富。Facebook推出的另一个新功能是额外增加了50多种定制性别描述符,不再只有“男性”、“女性”两个选项。

这些输入不断汇聚数据痕迹,然后迅速地被投入使用。将数据流提交给地图,地图不仅会告知你的所在之地而且还有你的欲往之所;地图也能为警察的先发制人提供“燃料”——即,基于模式的调查程序能在目标犯罪之前就识别到(数据)。“大数据就是人肉”,有两种意义。大数据由我们的点击流和导航选择所建造;反过来,大数据又是许多重大社会决策的一部分,甚至是自我定义、忠诚、关系、选择和类别的一部分。

一些文化评论家声称,新出现的“新型精神控制”能左右大多数选举。也有人将之描述成一种形式的人类掠夺工程。哈佛大学商学院的Shoshana Zuboff 认为,行为数据的泛滥使用会对自由、隐私、道德理性和自主权产生巨大的破坏性影响——会在几十年后会出现。按照她的观点,这只不过是一种新形式的恶性资本主义。

大数据往往被视为一种原始的自然之力,只能被利用。

轮番给大数据下定义的势头加深了人们“大数据缺乏主体性或者说缺乏人类视角”的印象。一些在技术研究领域工作的社会科学学者催促研究者们将研究方法从“以数据为中心”转变为“以人为中心”,声称大数据研究过于以数据驱动方式为重点而忽视了人类才是社会研究工作中的核心。此提醒虽然有用,但却忽视了一个中心事实,即数据痕迹是人类留下的。

与大数据频繁被展示的新鲜感相反,信息收集方法却并不完全是新的——事实上,一点都不新。平台(例如社交媒体)是最近才设计出来的,但是自动化访问的目标、人类即数据的概念和无所不知的幻想在此之前却已长久存在。这刺穿了一个认知,即我们总体上是被大数据所改造的人类。无处不在的大数据错误信息令人暂享安宁,这是一个棘手的问题。对大数据的误解、冗赘的重复及其定义的混乱扼杀了急需立即展开的关于数据隐私和数据利用的对话。

即使我们口头上说要减少隐私领域和增加对这个受围困领域的入侵(包括合法入侵、非法入侵以及介于两者之间的入侵),即使揭秘者用充足的令人担忧的理由提醒我们,我们仍然拒绝相信公共领域的谈话与我们自身的隐私传播有关。同样地,“大数据非人类”的感觉强化了民众心中大数据不能被修改和监管的印象;大数据往往被视为原始的自然之力,只能被利用。这些信念“养育”了政府的入侵理念和私人资本的强大力量,如果普通民众能清楚地理解正在发生的一切,他们可能会更奋力地反抗。但真实的情况却是:民众不知不觉地接受了天花乱坠的大数据宣传;大数据全面入侵的那一刻,民众就会陷入被动。清醒是唯一的希望。

在对未来陷阱的设置上,大数据和数据驱动的科学与社会科学技术的历史产生了强烈共鸣。在20世纪的进程中,社会科学需付出更大耐心和努力方能进入主观领域、自我领域、隐私领域和个人领域。随着社会科学对自己进行区分——社会学分割出人类学、社会哲学和经济学,每个学科都有自己的院系,都有自己的兴趣领域和特殊工具——专家将权威“封舱”,对热情的业余爱好者、准专家和异军突起的女性建造了防火墙。主流、专业的社会科学运用在数据提取上的技术丰富无比,研究对象会在设置的场景中倾向于、习惯于分享他们的回忆、他们的生活、他们人生第一步或者婚姻第一个夜晚中看似老一套的细节。

在印第安纳州的曼西市,社会学家Robert Lynd和Helen Lynd夫妇于1924-1926年间开展的“中镇”大型研究使用了一种新的“抓筐”方法(部分改编自人类学,部分改编自社会学),该方法将访谈信息、参与观察信息、报纸研究信息、问卷调查信息和其他来源的信息结合在一起。就像历史学家Sarah E Igo在《平均美国人》(The Averaged American,2007)中所写的那样:“在他们的视野范围之内,没有什么事实或者观察看起来是微不足道的,从七年级课程目录到大众喜欢的电影目录,从厨房洗涤所花的小时数到中镇住户后院的大小,他们无所不纳入。”

隐私挖掘的历史基本上不太为人知。从20世纪早期的观察网络到社会调查、问卷调查,到20世纪晚期的焦点小组访谈,社会科学研究技术不断演化,变得更具有针对性。在看似不间断的进程中,一旦越界,就会回到界内。所有的研究对象和主观状态——即使朝生暮死,即使转瞬即逝——都不会被忽视。就像心理学家James Sully在1881年所写的那样:“摇篮里的小婴儿也不得不承受科学之眼的锐利目光。”同样地,到了20世纪中叶,数据以一切为目标——从幻觉到闲置记忆,无所不包。在某些情况下,还会建立实验数据库进行存储。

1947年,心理学家Roger Barker在堪萨斯州奥斯卡卢萨(Oskaloosa, Kansas)的一个小镇上创建了社会科学实验室“中西部心理学实验站”,实验室建设的过程中,小镇成为了一种事实上的实验室。Barker和他的同事们通过革新观察程式,开辟了涉及“日常生活”数据——譬如童子军在城镇各处的沙地、校园以及其他空地上玩耍的普普通通却难以捕获的细节——的定期捕获法。细节看似微不足道——七岁的Raymond在1949年4月24日星期二的早上7点01分,拾起一只袜子,套在左脚上,慢慢地起床,摇摇晃晃,妈妈开玩笑道:“眼睛能睁开么?”——蕴积的数据却很多,细节数据堆积在一起,作为独特的资源提供给社会学研究,让其能访问在多变的位置上已经发生的“普通”生活节奏。研究者们感觉,不起眼的小事绝对是变化的。

同时,研究人员也在研究环境中设计出了新的技术用于更进一步地揭露隐私。20世纪50年代晚期开始,学者Terry Bristol和Edward Fern采用了焦点小组访谈,参与者们进入设置场景,经历“匿名和觉醒”,促成“共享经验的表达”。这些技术逐渐发展成为美国科学的一部分,即现代社会科学中的主观领域客观化。“中西部心理学实验站”的观察程式则是从印第安纳州的调查问卷到堪萨斯州的儿童研究到中镇的漂亮客厅和厨房一步步演化而来的。

在行为技术发展的黄金年代,越来越受关注的另一个领域是利用人类学研究对象从事全接入的社会科学实验。科学家们将此看成公布和渗透新领域的机会;全球各组织——例如Cree、Navajo和Bikini Islanders等——的研究对象则追求的是另一组目标,包括支付、自我认识、参与、反馈以及在一个不完全是想象的科学记录上留下自己声音的机会。

通过大量的计算,一个叫Don Talayesva的霍皮族印第安男人成为了历史上被最密集记录的对象,他从1890年到1976年的生活一直处于记录之中。仅仅在1938-1940年间,Talayesva就与人类学家Leo Simmons开展了350个小时的正式访谈,他用他作为霍皮人的生活经验在耶鲁大学百科知识库“人类区域关系档案”(Human Relations Area File)上为“霍皮族”填补了生物分类学上的空白。Talayesva还为民族学家贡献了8000页日记记录;他还用线装本记录下了341个梦;他还留下了一系列内容广泛的访谈、一个完整的罗夏协议和大量投射法人格测试。并在最后,与法国超现实主义者André Breton积极通信。

人类学研究缥缈的灵魂,并视其为对土地的映射。但是映射也会帮助改造土地。

Talayesva通常的报酬是一页日记7美分、一小时访谈35美分,罗夏测试另有结算,这使他成为了霍皮人中相当富有的一员。不管他今天是否还是历史上田野记录最多的土著,他仍然是“大量田野调查数据”的源泉,写下了Talayesva性心理再研究的语料库。同样地,对于其他杰出的人类学家而言,他提供了“真实的田野数据宝库”。Talayesva这个男人变成了一种数据输送管道。

走在前列的社会研究不仅以个体为目标而且以大型组织为目标。二次世界大战结束后,人类学家Melford Spiro在同一段时间内对西太平洋Ifaluk岛上的所有居民进行了心理学测试——Ifaluk临近的环礁区(包括Bikini等)是密集的核试验场所。Spiro的学术研究挖掘出了所有的种群数据。社会学家对美洲印第安人持续不断的调查研究被历史学家Thomas Biolsi看作是“内部绥靖”。Biolsi对19世纪80年代到20世纪40年代的美国土著苏族的历史进行了研究,发现社会学家对苏族人民生活的调查研究越来越多地转入心理学领域。这些研究探讨的东西越来越久远,甚至还有缥缈的灵魂,并将灵魂视为对土地的映射。但是映射也会反过来帮助改造土地。苏族人正在进行的“自我”转变虽然不均衡也不定期,但却颇精心刻意,Biolsi描述了这个过程,并对其进行了测量、计算、量化,并(最终)测验其“教唆”了正在发生的主观变化。实际上,这样的研究对象是煤矿里的金丝雀。

捕获内在数据——或者专家所称的“主观材料”——的实验方法从印第安人保留地扩散至白人占领区、少年犯管教所,甚至工厂和军队。当美国军队开启具有里程碑意义的“美军士兵计划”(The American Soldier project),大量穿孔卡片的统计调查为其开发了新的可能性。从日本偷袭珍珠港后的第二天1941年12月8日开始,一直持续到战争的最后几天,美军的心理评估与研究处实施了200多份调查问卷,每一份都交给2500名样本士兵填写——有些是在海外战场,有些是在偏远的前哨基地。

美军士兵计划的成果是“一个数据矿,历史上任何一个由单个研究机构缔造的社会心理学或者社会学研究在规模上与之相比也许都是黯然失色的”,该计划的负责人Samuel Stouffer如是说。美军士兵计划提供了一项进入士兵内心世界的独特方法——就像发布的成果所言,毫无偏见地看待“士兵的所思所想”。

当卢米埃尔兄弟电影的早期观众(特别是)观看火车驶来的连续镜头时,会感觉火车似乎要刺穿银幕而恐慌地跑出剧院。因为他们并没有得到过错觉计算的训练——至少是没有根据这部火车进拉西约塔站的虚构电影进行训练,那涉及看电影的快感。这部50秒的电影制作于1895年,于1896年首映,拍摄了一个日常事件——蒸汽机进站——的连续镜头,然而照相机放置在月台上,银幕上“行驶的机车”给银幕下坐着的观众造成了压倒感。电影拍摄的是一个(危险的)场景,而观众看了这部关于险境的电影——这些“缺乏经验”的观众混淆了视听。

看了“火车进站”拷贝的观众适应了新技术渗透进社会科学仪器,也适应了其在现代的化身——大数据。早些时候,民众似乎不会对电话名义测验表示反感,然而如今只有3%的民众会回答电话测验——如果他们仍然还在使用固定电话的话。反抗和技术相伴相生。

20世纪50年代到60年代,街头采访首次亮相,当陌生人拿着录制设备向路人随机提出问题时,路人刚开始看起来要么是困惑的要么是警醒的。由人类学家Jean Rouch和社会学家Edgar Morin录制于1961年的经典真实生活纪录片《夏日记事》对这个场景进行了精彩描述,深受工作折磨的巴黎人离开大都市巴黎,遇见了两个衣着时髦的年轻女郎,女郎手持麦克风探访他们的内心世界,问道:“先生,你开心吗?”这个问询引发了一系列的连锁反应,巴黎人无话可说——巴黎人与女郎调情——巴黎人伤心心碎。然而到了现在,民众对此常态已经毫无感觉了,因为今天人们仍能从媒介上看到大学生或者城市通勤者接受采访回答指定问题。

研究对象通过弄砸研究人员的数据捕获技术——讽刺挖苦、激起对方反抗、挑逗社会学家——来达到自己的目的。

到20世纪下半叶,民众(特别是城市居民)对随时可能被问到骚扰性问题越来越习以为常,也期望给出答案;当然,借口推诿也变得平常。建立在成千上万个访谈之上的著名金赛性学报告研究,刺激了一波恶作剧般的“社会调查者”探询女人隐秘的性生活问题。这些下流的冒牌货假装是金赛性学报告的工作人员,经常得到虚情假意的答案,直至充满信任的公众被警告他们受到了玩弄。有时,热情的有前瞻性的参与者会排队参加讨论性行为议题的金赛访谈,许多人报告称感到激动人心因为自己作为“一个微小的轮齿参与了一项伟大的正在进行的事实发现项目。”“……首先是挖掘出大量事实,然后是给社会组织和教育组织的典型群体绘制图片,也许还能绘制表格、曲线以及获取最终的结论。”一名被采访者如是说。

也是在20世纪中叶,工业心理学家Elton Mayo领导的哈佛大学商学院小组率先启动了对工人的隐私访谈,他们与伊利诺伊州西塞罗市霍桑工厂的工人开展了20000次访谈。研究小组打算捕获到“难捉摸的现象”(elusive phenomena),这是由另一个杰出的社会科学家提出的。研究小组的成果目前仍然存档于哈佛的Baker图书馆,这稀奇古怪的档案记录了1938年或者1941年工厂女工身上发生的普通又详细的生活细节。例如,Jennie为采访者介绍了她的发型变化、对圣诞礼物的期望以及在炎热季节卷袜子的癖好。流水线上的女工们笑谈前一天的消遣以及因外出喝酒而导致的白天效率低下。正如美国印第安人研究对象经常在中性的测量手段中呛声人类学家一样(例如,1885年,苏族答复者在进行人口普查时提供了譬如“死人头(Shit Head)”这样的名字以及其他下流猥琐的名字),霍桑女工研究对象则通过弄砸研究人员的数据捕获技术——讽刺挖苦、激起对方反抗、挑逗社会学家——来达到自己的目的。

有一天,或许就是在不久的将来,人们回过头看我们这十年,会为自己的悠闲和天真感到吃惊,我们沉迷于新技术,看不到自身行为数据资源所具有的价值,仅仅因为新技术的操作简易性、娱乐价值以及社会地位的可疑上升就双手赠送了行为数据。这是一种可能性。但是,我们越了解正在运转的进程,一般用户陷入“从未”炒作的就越少;在规模和颗粒度上瓦解新的数据收集能力——从那些以前就存在的趋势甚至存在很久的趋势中演化而来——就变得可能。

白宫最近发布的一份“大数据”报告认为:“然而,(大数据的)技术轨迹是清晰的:关于个人的数据会越来越多,而且经过管理后会长久存在。”我认为,当人们试图理解大数据轨迹复杂又难以预料的结果时,有必要再一次将“数据不仅是关于个人的,而且也是由个人所制成的”铭记在心。大数据是人类的大数据。

研究人员越来越积极地收集个人数据,与此同时,现代研究对象也被训练地更熟悉该如何参与、如何回答、如何热情地将自身的情况介绍给审查人员。训练让我们为新层次的侵扰做好了准备。我们都做好了准备接受大数据。

为了弄清楚如今的困扰,我们考查了用科学网络探索整体人类行为的历史。最终,我们试图捕获人类所经历的一切——大多数归结为家里长短的琐事,却发现人类不仅会有许多常见的经历而且会有一些截然不同、相去甚远的经历。大数据不是新发明的电子技术突然开发的项目,尽管大数据经过了新技术的改造。但,我们会发现,大数据是所有现代生活的驱动核心。大数据通过多种方式冠以持续长久的雄心要建造一个透明机械的自我——不仅是优化的也是自动化的。

我们需要看到数据机器里的人类。

20世纪的行为科学,尤其是美国人在全球各地推行的行为科学项目,野心勃勃地捕获人类经历中越发个人私隐的部分,将人类变得愿意被聪明的机器所操纵。这是Rubion,即现在众所周知的大数据,的前奏。这些历史项目,有些受政府军方支持较多,有些受政府军方支持较少,运行在大杂烩的新旧技术组合上,为此时刻——各种团体机构联合的研究组织为政府的数据库提供数据而不是反过来——扫清了道路。

这就是为什么先前收集大量“人类材料”的目标在今天会产生如此之强的共鸣。这证明人类和材料之间存在张力,以及两者之间存在互相转化的渴望。瑞士植物历史学家Bruno Strasser声称的“据说前所未有的数据驱动科学”并没有那么闻所未闻。因为这个原因,我们有必要理解我们之前有什么,以便理解今天到底有什么是新出现的。

前述的数据收集方法革新的例子已经是以内心世界为导向的,而且已经涉及主观数据挖掘。但这些方法在如今使用电子衍生数据流的类似数据规模上却根本行不通。然而,过去挖掘内心世界这一重要紧急的事在今日研究对象训练的核心位置找到了一席之地。通过利用新技术进行编排,通过将新方法融入到我们的人类经验中,大数据发生了改变。我们人类也发生了改变。但是如果我们真的想要理解这种改变、谈论这种改变——如果我们想要知道哪些真的是新的而不是盲目自大地被标榜是新的——我们需要溯源至历史的详细记录。我们需要在数据机器里发现人类。

Rebecca Lemov是哈佛大学历史科学系副教授。她最新出版的书籍是《数据库之梦:人文目录学的最低追求》


相关译文来自无觅插件
共计0条评论
×提示

您已经赞过此文了。

确定