※ [本文转录自 IA 看板 #1Hk-8rr5 ]
作者: Blackrice (国际情势) 看板: IA
标题: [资讯] 美国国安局如何海量监控使用者资料
时间: Sat Jun 15 11:40:30 2013
http://www.guancha.cn/HuaErJieRiBao/2013_06_14_151119.shtml
美国国安局如何实现海量使用者资料的监控?
仅仅在五年之前,诸如美国国家安全局(National Security Agency,NSA)这样的政府
机构要想通过关键字的方式高效率地分析数百万份电话、文本消息和线上聊天记录,简直
是不可能完成的任务。但是一系列新技术的应用让NSA拥有相对充分的人力和财力做到这
一点。
哈佛商学院客座教授、资料分析专家汤姆・达文波特(Tom Davenport)指出:“这些新
技术为政府部门节省了巨额开支,同时还极大地提高了政府部门分析此类资料的能力。虽
然需要配套的资料中心支援才能完成资料分析任务,但这些技术的成本要远比几年前低得
多。”
NSA斥资十二亿美元在犹他州打造大型资料中心将于今年秋季投入使用。目前尚不明确的
是,到底NSA在覆蓋全美的资料中心使用的是何种计算技术。但总体来说,这些技术被分
为三大类型:
全球消费者平均每月使用的网络、电子邮件和资料流程量图
全球消费者平均每月使用的网络、电子邮件和资料流程量图
数据库系统
大多数使用SQL程式设计语言的传统数据库是把资料存储在由行与列组成的表格中。然而
,当遇到存储包括电子邮件或文本资讯等字串时,传统数据库就暴露了能力有限的弊端。
而且它们还无法处理图片或视频。
而于2009年年底开始出现的新型数据库NoSQL(Not Only SQL,不仅仅是SQL)则突破了传
统数据库的能力限制,可以允许资料分析专家针对所有类型的资料创建资讯要求。这些新
型数据库包括MongoDB、Cassandra和Simple DB等。
在说明公司分析超大型资料组方面,NoSQL数据库体现出了非凡的能力。比如,美国保险
资料供应商Verisk Analytics Inc.的分析师就在针对数十亿客户资料不断运行各种不同
的资料模式和分析方法,以从中发现虚假保险索赔记录。Verisk 副总裁兼首席资讯官佩
里・罗泰拉(Perry Rotella)表示,使用IBM提供的传统DB2数据库“需要通宵达旦地工
作6个小时才能完成工作”。此后,分析师还得投入大量时间研究得出的资料结果,并提
出新的资讯要求,而这恐怕还得再熬一个晚上。他指出,分析师每次都需要花费几周时间
才能创建出新的资料模型。Verisk最近刚刚开始使用更换后的NoSQL数据库,分析师仅用
30秒就能完成相同类型要求的运行。
罗泰拉表示:“突然之间,你的模型建构告别了几天才更行一次的传统,变成了即时更新
状态。通过使用NoSQL数据库,你可以在一天内多次进行资料运行,这极大地缩短了获得
资料结果的时间。这项功能简直太强大了。”
机器学习
传统分析要求分析师对资料有充分的了解,然后才能创建假设问题,进而针对数据库提出
复杂的问题。以机器学习和自然语言处理为核心的程式设计技术则依靠电脑程式来发现资
料类型,甚至还可以根据上下文阐明模糊词汇的意义。
达文波特指出:“你可以把机器学习程式植入多个资料之中,然后你就会看到该程式会给
你提供什么样的分析结果。通过使用自然语言处理技术,你还可以分辨出‘炸弹’这个词
是百老汇舞台剧的剧名,还是恐怖分子将会使用的武器。”
权威市场研究机构Gartner Inc.的分析师道格拉斯・莱尼(Douglas Laney)指出,机器
学习又被称之为“认知分析”,它能够让分析师提出的问题不断进行“自我修正”。比如
,在新资讯出现时,零售商就可以使用该技术来实 时自动更新计价算法。这些新资讯
包括天气、时间、甚至是消费者在其零售店里的行为视频。
Hadoop基础架构
直到最近,还是只有造价昂贵的硬件设备才能够运行特别复杂的电脑程式,比如超大型电
脑设备。现在Hadoop开源软件分布式系统基础架构已经能够让从数据库提取资讯的过程进
行分布实施。在这一过程中,不同的分析任务被分配给大量造价低廉的服务器进行分析,
每个服务器只负责分析其中的一部分内容,然后这些内容又会在任务结束后被汇总在一起
。达文波特表示:“这非常省钱,而且运行速度特别快。”
这种将复杂的问题分配给大量造价低廉的电脑处理的能力有助于人们获得问题的及时回馈
,而且人们还会获得大量的资料变量。比如,美国汽车资讯网站Edmunds.com可以帮助汽
车经销商预测一辆车在他们自己的停车场里停留的平均时间。这种预测能够最大限度地缩
短一辆车售出的时长。Edmunds.com的首席资讯官菲力浦‧波特洛夫(Philip Potloff)
指出:“对于汽车经销商来说,这可是衡量销售业绩最为重要的指标之一。”
本文愿意开放自由转载