大数据分析平台 Palantir 介绍

Palantir 是美国大数据分析行业的独角兽,由 FaceBook 早期投资人、PayPal 的联合创始人 Peter Thiel 以及现任首席执行官 Alex Karp 等四人于 2004 年创立,提供基于大数据的分析技术和平台支持。其主要客户为美国国家安全局(NSA)、美国联邦调查局(FBI)、美国中央情报局(CIA)以及其他美国反恐和军事机构,曾助美军追踪本·拉登。 Palantir 的核心理念是人脑智能与计算机智能的无缝交互。大数据时代,数据收集渠道广泛,结构化数据和非结构化数据并存,在种类上体现出多样化,在体量上呈现指数级增长态势。Palantir 构建数据分析的基础架构,通过图(Graph)、地图(Map)、统计(Statistics)、集合论(Settheory)分析数据,为客户提供数据分析平台和软件,使得用户可以快速分析海量数据,找出规律,获得结论,并作出决策。 其服务具有两大特色:实时决策和隐私保护。Palantir 构建的软件可以允许机构在同一平台整合数据、决策和操作,并通过有效的数据建模和可视化服务快速回答复杂情境下的问题。另一方面,Palantir 在使用数据时秉承保护隐私和公民自由的原则,在设计上添加信息保护的模块,用户只能看到需求和允许范围内的一切信息,并提供日志追踪。 Palantir 目前主要针对政府和金融机构提供服务。旗下产品包括 Palantir Gotham 和 PalantirFoundry。其中Palantir Gotham 收集并分析军事和政府情报,主要应用于国防和安全领域,Palantir Foundrys 则更多应用于商业和金融领域。两大平台主要提供五项基础功能: 1. 数据集成:Palantir 提供多种方法从不同数据源中提取数据,并基于本体创建和填充对象; 2. 搜索发现:Palantir 为分析师提供多种搜索机制,使得可以找出与需求相匹配的数据,并自动挖掘数据间关系,最大程度发挥数据价值。如环形检索(Search Around)和快速搜索(QuickSearch)。同时提供生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,无需了解复杂的查询语法; 3. 知识管理:Palantir 重视信息的可靠性和完整性。会在导入数据后记录所有信息源和信息内容,并依据用户权限提供数据保护; 4. 算法引擎:Palantir 寻找通用的算法来解决一致性的问题(反欺诈、反监听),算法适应海量数据的处理,可以快速构建模型; 5. 协作共享:Palantir 允许分析师发布共享自己的分析结果给其他用户,并允许用户在线更新。 动态本体 人工智能领域常使用本体对领域知识进行分类和描述。在 Palantir 中同样采用本体概念对导入的数据进行统一管理。Palantir 中的本体实质上是所有对象的分类和集合,它会合并相同的对象到同一对象类型中,并随着数据的添加、删除和修改来动态更新本体内容。 Palantir 中的本体主要由对象、属性和关系构成,对象是指一切可以被建模的事物,属性是是指对象的特征或性质,比如人具有属性性别等,而关系则用于描述对象、属性之间的关联比如人物之间存在雇用关系。在 Palantir 中,对象、属性和关系是硬编码的,基于此可以设计各种不同的数据类型来灵活控制本体结构。 对象是核心。对象具有两个固有属性,所有其他属性都在系统被分开并安全地保存,通过关联关系连接到它们对应的对象;这就使得 Palantir 系统能够实现细粒度的访问控制(粒度细到“属性”级别),同时允许在单个属性中出现多个值,这与许多内容管理系统实现属性的方式相反,但降低了约束性。 目前 Palantir 中主要包含三种对象类型:实体(Entity)、事件(Event)和文档(Document)。它们的定义如下: ● 实体是事物,通常任何名词都可以代表一个实体,例如人、车辆或位置; ● 事件是某个时间点发生的行为,这意味着任何动词都可以表示为事件,例如访问、飞行或购买等; ● 文档代表着非结构化文本数据,例如电子邮件、文本文档或 html 文件。 这种分类方式是基于需求的考量。因为在情报分析领域,很重要的就是对人物、组织等实体的画像,对重大事件的建模分析以及对文档的检索分析,而且实体、事件和文档之间本身是一个自循环的系统。 与一般的本体不同,Palantir 中的本体属于动态本体,它允许对所有不再使用的对象、属性和关系进行移除,并且根据需求添加新的对象、属性和关系。另外,它还支持对对象、属性、关系的功能修改,包括添加修改标签、图标、解析器等。