Appscout 如何将大数据应用于现实世界

如何将大数据应用于现实世界

视频: 淡蓝全球独家首发同志影片《å¤ç«ã€‹2 (十一月 2024)

视频: 淡蓝全球独家首发同志影片《å¤ç«ã€‹2 (十一月 2024)
Anonim

在本期《快进》中,我与Enigma的首席执行官兼联合创始人Hicham Oudghiri进行了交谈。Enigma是一家致力于收集和理解大数据集的公司。 Enigma是一家面向私人客户的运营数据管理和情报公司,但可能以Enigma Public最为人所知,Enigma Public是可搜索的,可公开访问的数据集,包括从白宫办公室职员的薪水到纽约市餐厅检查的所有内容。 我们谈到了大数据的力量,消费者隐私的局限性以及数据驱动世界的未来。

您为什么不向我解释一下开放数据公司今天的含义?

绝对。 我们开始只是在可能找到的任何地方收集大量公共数据,其使命实际上是试图联系关于世界的截然不同的事实。 我们意识到,在此过程中,就像破坏了对这些基础数据的访问一样,这种模式也在人们自身的数据,监管环境中的公私数据报告方案中产生了反响。 确实,我们带来的是将开放数据这一概念视为我们所到之处的一种运营模型。

今天,我们的最佳去处是培养庞大的公共数据资产存储库,并将其用于企业通常位于防火墙之后的实际问题环境中。 尽管我们收集和分发了大量数据,但我们发现,进一步进行实际解释该数据并将其链接到私有数据确实有助于扩大我们要解决的某些问题的影响。

人们听到有关开放数据集,公共数据集,私有数据集的信息。 我们在这里谈论什么样的数据集?

我们正在谈论源数据,官方数据,政府机构将要发布的内容,国际机构将要发布的内容,从公司注册记录和财产评估到H-1B签证或集装箱运输的所有不同内容。 绝对不会谈论诸如LinkedIn数据之类的话题,这在最近是否成为公开数据集一直是一个巨大的争论话题。 最近有一起引起争议的诉讼。

但是,我们主要谈论的是官方原始数据,这里有一项授权和某种正式的法律批准,将其发布到公共领域,主要是为了提高经济和贸易体系的透明度。 例如,从问责制的角度,了解政府在各种私人公司上的支出,或者从问责制的角度,了解签证在公司之间的分配情况对我们来说非常重要。 这些数据通常是由政府收集的,用于其他目的,例如报告,计划,资源分配,然后再分发给公众,以获取次要的和通常的三次收益。 最受欢迎的例子就是天气数据,对不对?

我们收集的所有天气数据均来自官方来源,或GPS作为一种技术。

因此,您采用了所有这些公共数据集,然后可以将它们与公司专门为您提供的私有数据集合并,并真正看到了将两者结合在一起的见解?

是的,很多时候。 考虑一个规范的用例,在这种情况下,您尝试做一些事情来弄清楚一家公司是否是真实的。 如果这是一家小公司,请选择一家餐馆或一家小企业。 通常,他们在他们身上拥有的轮廓非常薄。 但是,如果您要查看他们的酒牌,甚至劳工部的检查或健康记录检查之类的东西,您会更加了解他们的身份。

通常,这有助于这些公司实例化它们对于获得信贷,获得保险之类的东西甚至是真实的。 从“这是您的18页应用程序”和一个非常烦人的过程,到七种不同的合规性设置,过渡到可以自动在线上进行且通常风险较小的方式进行的事情。

因此,您可以让所有其他所有数据集甚至针对基本内容进行验证,而不是仅将其输入Google以查看它们是否具有网站以及它们是真实的?

绝对。

在上线之前,我们正在谈论 Ozark ,所以您最喜欢的节目,我最喜欢的节目 以及使用这些数据集进行合规性,财务报告甚至追捕洗钱者的想法。

是的 首先,那里最好的节目之一。 巨大的Netflix插件,已成为好莱坞一流的制片厂。

他们为此付出了代价。 他们已经进入了这个市场。

他们当然有。 但是节目是关于这个杰森·贝特曼(Jason Bateman)角色的,他发现自己是这个毒品卡特尔的洗钱者。 问题在于,他通过说他将去奥扎克人并找到新的洗钱渠道来挽救生命。 他开始购买这些较困的业务,然后分摊各种费用。

老实说,洗钱问题是一个巨大的理论问题,您正在研究金融服务的不同商人或消费者之间的活动模式,以及它们之间的联系。 因此,您将像注册代理人一样,很显然,像Jason Bateman这样的人正在为几个企业开展业务。 他私下里为他们买单,并开始以各种不同的形式获得自己的名字,您会注意到这种活动方式。 显然,这是银行必须抗衡的事情,因为这对系统是有害的,它们正为此做准备。

犯罪已经像音乐一样数字化和分散化。 这是一个更大的问题。 没有一个大的暴民家庭,政府可以潜伏几个月,让他们成为卡彭式的。 这是许多方面的全面追逐。 我们已经帮助并努力使公共数据解决该问题,但同时也带来了我们用来汇总所有公共数据的技术来解决该问题的原因,因为银行在技术上有很多提升确实要将自己的数据集合并为强大的上下文线索,以供他们在工作人员中使用的调查人员使用。

我觉得我们现在已经到了由政府机构创建的所有公共数据的地步。 我们拥有所有这些私有数据集。 每个公司通常都在同一公司内拥有多个数据集和许多不同的格式。 但是,标准化程度不高,使它们协同工作实际上是一个重大挑战。

这是一个巨大的挑战,我们在Enigma面临的最大问题之一可能是巨大的分歧。 我的一位投资者这样称呼它-在一个以比特为单位检测数据的世界,在一个以原子为单位检测数据的世界。 谷歌,Facebook,亚马逊等科技公司,在将您从活动中获得的数据浏览网络并创建诸如搜索和更好的电子商务体验之类的新服务方面,都做得非常出色。 但是这些数据全部存在。 它是数字原生的。 它只是在网上听你说话。 网络是一种协议,而这些协议旨在彼此通话。

但是,当您拥有以原子或真实世界为基础的数据时,例如有人在奥扎克斯(Ozarks)进入一家银行并要求一笔小额贷款,那看起来就和其他人走进另一家银行分行或货运集装箱的情况有所不同来的那艘船正在询问进行运输的公司的名称。 所有这些数据都是设计为(或未设计为)相互交谈的,因此将这些数据拼接在一起存在很大的问题。 我认为,这些纯粹的高科技行业将需要更长的时间才能获得大数据技术带来的好处。 但是,当他们这样做时,我认为它将以一种非常有影响力的方式改变我们日常生活的许多方式。

我也有一种感觉,当有财务动机将这些数据集组合在一起并创建这些见解时,企业会找到一种支付方式,并且会找到一种完成方式。 信用卡公司是最早能够识别模式和识别欺诈的公司之一。 我觉得在从这些数据量中创建见解方面,公共部门远远落后。 那是公平的评估吗?

从某种意义上说,私营部门在技术实施方面一直具有优势。 财务激励是巨大的,也是较小单位的经营方式。 实际上,美国政府只是世界上最大的组织之一,完成任何事情确实是一个人的问题。 确保激励措施一致,确保人们承担适当的风险。

但是,我们已经看到政府在做一些非常创新的事情。 我们与新奥尔良市合作,我认为这就像两年前一样,可以帮助他们基本预测贫民窟房东的位置,主要是在这些房屋中安装烟雾探测器。 卡特里娜飓风过后,您遭受了如此巨大的枯萎病。 许多房东正摆脱困境。 老实说,烟雾探测器在防止火灾死亡方面做得很好。 如果您使用人口统计数据,建筑物的年代以及上次最后一次安装某种基础设施(例如电信基础设施)之类的因素,而不是将消防员送往随机的房屋,该怎么办?

您利用所有这些事实,得出的门命中率要高得多。 我们已经看到很多这类地方政府的财力发挥得很厉害。 可以想象,显然,情报界中有大量的数据使用情况。 我们确实发现有很多创新之处。 再说一次,这都是关于如何操作它的。

您拥有所有这些数据点,但随后必须以适当的方式查询它,寻找模式。 您几乎必须搜索相关性,这就是一系列的问题和答案。 它与数据建立了联系,我想我们才刚刚开始弄清楚它是如何工作的。

是。 我们开始从技能组的角度弄清楚它是如何工作的。 而且,就统计思维而不是统计思维而言,存在一种思维转变。 俗话说:“所有模型都是错误的,但有些模型是有用的”,因此,这实际上是关于是否可以在没有数据,没有算法的情况下,将统计思维的参数进行一点上下文化。 我可能做错了,就像发生火灾时一样,我们可能做错了,但是我们可能会增加做对的机会,或者可能会降低风险的表面积或必须寻找的东西。 赋予问题以“一刀切”的态度,这是能够进行统计思考的技能组第一。 有些人被困在:“好吧,我们唯一可以确定的是我们是否有X,Y和Z。”

我举一个私人的例子。 在银行中,由于历史上的欺诈和合规原因,通常在他们发出信用卡之前验证某人是否真实的方式是确保其电话号码和地址与应用程序中的内容匹配。 并非所有公司现在都使用实际的电话座机。 并非所有公司都将其主要地址用作其实际运营的地址。 现在,在WeWork工作的人们和使用IP语音的人们有些过时的现实。 通过他们在社交场合的身份或我们在Enigma中提供的提供这些辅助证明点的一些数据集来识别人们,感到很自在。 从历史上查看并运行统计信息,以查看其真实性的可能性是否很大,而不是事先从这些替代方法中获得的保证。

我认为这也是一个有趣的观点,即假设所有模型都将是错误的,或者很大程度上是错误的,或者以较小的方式是错误的,但这没关系,因为它仍然可以帮助您做出正确的决策。 这是我们在教孩子方面做得很好的一项技能,他们甚至可以从哪里得到培训? 我的意思是,数学上不一定如此。 它不会在社会研究中。 他们从哪里得到这种敏感性?

像通常的数学教育一样,统计数据通常被细分为子类,但是您可以在其他地方看到它。 这些天,即使在您的ESPN Feed中,您也会看到它弹出。 人们对预测已成为生活的一部分感到更加自在。 老实说,我喜欢这些黑天鹅时刻,所有这些时刻都飞到我们的脸上。 参加最后一次选举。 您赢得了希拉里(Hilary)的胜利,并且在一些最好的机构中拥有世界上最好的数据科学家称其为错误。

获胜,但获胜的可能性不大可能达到70%,因为那仍然意味着唐纳德·特朗普赢得三分之二的胜利。 你猜怎么着? 这是那三回合之一。

绝对。 还有就是我们看到这些模式使人们更加自在。 在教室里,我认为我们最大的问题之一就是应用学习。 就像,我不知道他们为什么不在教室里教授个人理财。 我的意思是,我18岁时的钱就很白痴,而且对债务及所有其他方面都产生了影响。 我仍然为他们不这样做感到惊讶,所以我觉得我们正在朝着这样一个世界前进:在这个世界上,教育将越来越多地涉及应用知识,而对理论知识却越来越少。 但是然后我担心我们是否会失去文化学习的某些方面。 这都是一个权衡。

我会走的更远,谈论人工智能。

人工智能,一种巨大的变革性技术。 在我看来,人工智能在帮助我们了解这个数据过多的世界并为我们找到这些模式方面发挥着作用。 您是否对AI帮助我们理解这一点感到乐观,还是将它与我​​们其余的人类经验完全分开?

不。我的意思是,我在总体上对人类持乐观态度。 我觉得这是一个偶然的事情,在某个时期会发生在人们身上。 关于人工智能的承诺,我最喜欢的一件事是,它实际上将帮助技术消失,因为目前,重点是关注如此先进的技术和数据。 但实际上,数据工作非常密集。 当您在数据集中查找内容时,将它们称为数据挖掘是有原因的。 真讨厌 数据集不干净。 从某种意义上说,这有点残酷。

我喜欢AI的是,它可以根据观察到的经验创建这些反馈循环。 尽管您正在从所有这些地方收集所有这些数据,但是您实际上不一定知道如何将它们组合在一起,因此您可以开始研究结果。 机器学习可以帮助我们在统计思维方面更加以结果为导向。 我认为这将帮助我们抽象化该工作的某些细节,并使我们在处理工作时更加注重结果。 现在,坦率地说,在某些领域对自动化的影响方面,这绝对会令人感到恐惧,坦白地说,我认为应该将AI放在一边,就像更换陪审团一样。 我们会得到那种情绪智力吗? 我不知道。

而且您必须选择说出您想要陪审团的那种情感品质, 而不是该人有罪或无罪的纯粹可能性?

是。 对于我来说,根本的人性对我来说非常重要。 坦率地说,只是从事这项业务,并且看到人的力量对甚至说服人们开始进行统计学思考非常重要,我很乐观地认为,随着大规模AI的出现,我们不会输给别人。

我们谈到了LinkedIn是否是公共数据集。 在很多人看来,他们生活在这个世界上,从购买方式到年龄,病史,都可以在线获取有关他们的一切信息。 它使人不舒服。 这使人们担心政府信息太多。 我个人更担心私人公司的信息太多,而且它们的监管要少得多。

是。

我们需要法律保护我们的个人信息吗? 个人信息应与政府记录分开对待吗?

绝对。 对于管理数据泄露方式的法律,我们几乎没有任何保护。 在某些专业中考虑一下。 在医学界,它处于锁定状态。 但是由于某种原因,它不一定在其他行业受到限制。 原因是,那时您对个人信息无能为力。 如今,他们对如何让您转换或您将身处某个地方的想法非常了解。 我认为,从所有意图和目的出发,这实际上最有利于我们。

但是与此同时,我们的数据在处理方式上仍然值得如此神圣。 欧洲已经出台了非常严格的法律。 有一项名为GDPR的法律。 它定于2018年制定,其内容包括确保公司跟踪其个人数据的沿袭,拥有者,如何在公司内部对其进行访问以及被遗忘的措施的权利。 当您说“删除我的数据”时,您实际上是将其删除还是保留用于其他信息? 因此,消费者与他们所服务的总在交换。 这些服务很多都是免费的,我们喜欢它们,对吗?

我会放弃自己的一部分以访问YouTube,对吗? 我对此感到非常高兴。

也许你有。

可能,我有。 但这并不意味着不应将我捐赠的那部分放入安全的盒子中,并且我知道那个盒子在一个沙坑和所有这些好东西下面。

同样,数据过期的想法在当今的数字世界中是一个相对较新的概念。 过去一直是有些模糊。 如果30年前发生了某些事情,那么从那时开始很难找到记录并获得个人资料。 但是今天有孩子们一直在线生活,他们13岁时所做的事情和发布的信息在63岁时就会出现。

是。

我们没有可以以任何有意义的方式处理该问题的法律基础架构。

不,我们没有,这是一个毛茸茸的地区。 这是劳动法上毛骨悚然的地方。 这是一个毛茸茸的约会区,对吗?

如果您查看某人的Facebook个人资料-我认为这种文化将适应这种情况,因为某人的在线状态是公开的。 但这几乎是戏剧性的。 就像您的公开身份不是真实的您一样。 那是吉姆·凯里的电影是什么? 隐喻地说,我们所有人都戴着口罩。 因此,我认为您的在线状态会更像是描述您的画廊或艺术品,然后才是真正的您。 但是仍然有您在做身体射击或类似的事情……那,您不想公开。 一个真正的问题是,年龄足够小的人是否有能力决定将其放在网上是否明智。 当然,这很可怕。

说到将愚蠢的事情放在网上,让我们谈谈特朗普政府。 我在多个方面都听说过……您显然正在处理许多公共数据集。 您必须去寻求许可才能多次获取此信息,或者弄清楚如何摄取它。 现在更容易吗? 自特朗普政府上任以来,对公共数据集的访问方式有何变化?

是。 当我谈论这些东西时,我的第一个警告是,特朗普政府与美国政府之间的巨大差异。 到目前为止,美国政府是我在世界上遇到过的最透明的机构之一。 相对于我们的同行来说,我们发布的数据量,我们为此类工作投入的资金数量都非常透明,因此请注意第一点。

对于特朗普,我的意思是,我很清楚,每个人都应该对美国政府透明和共享信息的立场感到焦虑。 首先,有一些非常明确的内容,例如记下白宫的访客名单,这是奥巴马实行的一种做法,我认为这是政府最核心的会计制度之一。 有EPA数据,有气候数据,通常,甚至有人辩论某些人口普查数据受此影响。 您必须记住,这些都是不小的努力。 我认为美国人口普查每次进行的投资都超过40亿美元,其中涉及30万名志愿者。

仅考虑到其发生的资金周期,我们将在其中一些事情中看到它们在四年内的影响。 尽管这个政府当然不友好,但我认为这个国家的透明度骨干足够强大。 奇怪的是,这来自左右。 足够强大,可以确保这种向信息开放的运动不会停止。

这些数据集有很多方面。

是。 这就是我们决定在哪里放置医院的方式。 这是我们决定如何安排救护车路线的方式。 这就是我们决定如此众多基础服务的方式,例如废物管理就是依靠这些东西。

告诉正在看过我多次访问过的Enigma公共数据集的人们…超级,超级酷。 人们去那里应该期待什么? 他们能从中得到什么?

我们的承诺之一是持续诚实地履行收集所有数据的使命,但会尽我们所能将其回馈给人们。 它完全可以免费用于非商业目的和新闻目的。 我们要确保每个人都可以访问此数据。 您甚至无需登录,也无需向我们提供任何信息即可继续访问。 当我们成立公司时,存在很大的访问权前提。

多年来,我们已经学到了很多东西,因此访问和界面设计以及搜索和信誉非常重要。 另一个是策展人,这是我们今年夏天重新推出的Enigma Public的重点,是人们需要了解如何使用这些数据这一观念。 人们不仅需要知道如何使用数据的最佳实践,还需要知道哪些数据集对什么有好处。 有什么新功能,有什么令人兴奋的? 我认为这种教育是我们很高兴能参与其中的一件事,也是我们希望人们能在进入该网站的第二秒。

绝对值得一试。 我想,企业再次看到这些数据,他们知道他们可以在此基础上建立业务。 我认为对于记者和公民而言,还需要更多的教育。

可以说,当然,可以提供更多的教育,并希望在其基础上提供一层完整的服务,以便像我们和您这样的人提供服务。

让我问你一个问题,我问节目中的所有人。 您最关心什么技术趋势? 有什么可以让您彻夜难眠吗?

最关注我的趋势或我认为最值得关注的事情是生物编程的概念,因此我们在以编程方式创造生物生活链方面越来越好生物。 这对产生巨大的影响,但对于通过这种方式制造小规模的,基本上是渎职的行为也具有巨大的影响。 无论技术和生物在何处相遇,我总是对如何处理感到担忧。 就像对我来说,核后的下一个浪潮,实际上是我们的能力,例如在小型实验室中以编程方式对事物进行排序并进行分发。

挑战在于,即使我们在美国通过法律,这也不意味着某人无法在中国或俄罗斯进行相同的研究。

绝对-甚至从安全角度来看,对吗? 因此,我们现在真的真正开始拥有让所有人自己动手进行生物战计划的手段。 因此,对我而言,这是我最关心的事情。 但另一方面,它还包括个性化医学之类的东西,您可以真正了解我的身体,几乎可以创建此生物学版本的软件程序,以治愈我所患的任何疾病。 和我一样,我也为此感到兴奋。

我认为这样做的缺点是我们需要某种道德结构来引入这些新技术。我们勉强用核​​武器和核能完成了这项工作,但是我们在那里做到了,我认为我们需要开发一些东西类似。 在个人层面上,您每天使用的一项技术改变了您的生活,令您惊讶吗?

这有点奇怪,但仅仅是FaceTime。 或视频聊天。 我有一些家庭成员出国,而且我经常出差工作。 电话和视频聊天之间的区别只是随便在电话上,这确实使我感到互联网可以连接所有人的全部希望。 只需15秒即可完成。 我最初来自摩洛哥,所以看到世界各地的某人说:“嘿,您在做什么?” ,看看他们周围环境的天气情况,他们的着装和举止,这确实改变了我与周围人的联系的感觉,并使我觉得我们都生活在这个大村庄里,喜欢那种感觉。

还有一点很有趣,我看到了视频会议的兴起。 接下来将会是。 没人会再打电话了。 视频会议从来没有真正开始过,而是视频聊天,它更具个人性,与众不同,而且不在工作环境中,几乎比电话更休闲。 就像是瞬间的事情一样。

我有一个3岁的女儿,她完全有把握。 在打电话之前,她会进行视频聊天。 她不知道电话是什么。 您放了扬声器电话,请她与某人聊天,而她根本不感兴趣。 您将她放在FaceTime的祖父面前,她可能会在那里呆20分钟。

对于她来说,这就像今天孩子们不知道如何使用的旋转电话一样奇怪。 Hicham,人们如何在线上关注您,了解您在做什么并跟上Enigma的发展?

转到enigma.com。 可以肯定地查看Enigma Public,这是public.enigma.com。 查看我们的网站。 我们有一个非常活跃的Twitter帐户,还没有Instagram。

永远不要把话说绝了。

永远不要把话说绝了。 但-

您可以使用图表来做伟大的事情。

对,那是真的。 我们确实是数据支持的忠实拥护者。 我们的网站labs.enigma.com确实有这个很酷的部分,它是我们所有的实验以及我们与新奥尔良提到的一些免费项目的无偿项目,因此,我也将对其进行检查。

很酷。 非常感谢您的光临。

太棒了 非常感谢您有我。

如何将大数据应用于现实世界