大数据告诉你：10年漫威，到底有多少角色

副标题#e#

最近正值复联4上映，小F也发现了一个有趣的网站。

主要是关于漫威人物、漫威电影的图谱。

https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/index.html(复制到浏览器打开)

网站是基于Graph技术开发的。

其实之前小F也利用了有关Graph的库实现了一波人物的关系分析。

只不过分析结果比较粗糙而已~

下面是网站的概况，大家可以一览。

大数据告诉你:10年漫威，到底有多少角色

那么人家能做出这么酷炫的关系图，我们自己能不能实现呢?

这一期就利用网站提供的数据，使用Neo4j(NOSQL图形数据库)进行实战一波。

一、获取分析

人物及人物关联信息从网站上获取，具体接口如下。

大数据告诉你:10年漫威，到底有多少角色

数据为json格式，分别在「characters」和「relationship」中。

大数据告诉你:10年漫威，到底有多少角色

这里的信息是分别指托尼·斯达克，关系「0」为朋友，斯蒂文·罗杰斯。

大数据告诉你:10年漫威，到底有多少角色

二、数据获取

具体代码如下。

headers = { 
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' 
} 
 
url = 'https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/data/marvel-data.json' 
response = requests.get(url=url, headers=headers) 
result = json.loads(response.text) 
 
num = 0 
names = [] 
item = {0: 'friend', 1: 'enemy', 2: 'creation', 3: 'family', 4: 'work', 5: 'love'} 
 
for i in result['relationship']: 
    subject = result['relationship'][i]['id'] 
    object = result['relationship'][i]['target_id'] 
 
    if subject not in names: 
        names.append(subject) 
    if object not in names: 
        names.append(object) 
 
    relation = int(result['relationship'][i]['relationship']) 
    with open('relation_message.csv', 'a+') as f: 
        f.write(subject + ',' + object + ',' + item[relation] + '\n') 
 
for j in names: 
    num += 1 
    with open('names_message.csv', 'a+') as f: 
        f.write(j + ',' + str(num) + '\n') 
 
for k in result['characters']: 
    id = result['characters'][k]['id'] 
    name = result['characters'][k]['name'] 
    status = result['characters'][k]['status'] 
    species = result['characters'][k]['species'] 
    with open('message.csv', 'a+') as f: 
        f.write(id + ',' + name + ',' + status + ',' + species + '\n')

最后成功获取数据。

大数据告诉你:10年漫威，到底有多少角色

#p#副标题#e#

人物名为简称，共计182个人物。

大数据告诉你:10年漫威，到底有多少角色

1144条人物关系数据，4大类型。

下面是182个人物的一些详情信息。

大数据告诉你:10年漫威，到底有多少角色

包含了人物的名字及简称，存活状态，人物属性。

三、数据可视化

下面通过Neo4j对人物关系进行可视化。

Neo4j的安装这里就不细说了，大家可以自行百度。

开启Neo4j服务后，登陆Neo4j网站，初始化界面如下。

大数据告诉你:10年漫威，到底有多少角色

先加载第一个文件。

大数据告诉你:10年漫威，到底有多少角色

具体代码如下。

LOAD CSV WITH HEADERS FROM 'file:///names_message.csv' AS data CREATE (:people{name:data.name, id:data.id});

下面加载第二个文件。

大数据告诉你:10年漫威，到底有多少角色

具体代码如下。

LOAD CSV  WITH HEADERS FROM "file:///relation_message.csv" AS relations 
MATCH (entity1:people{name:relations.subject}) , (entity2:people{name:relations.object}) 
CREATE (entity1)-[:rel{relation: relations.relation}]->(entity2)

点击1144按钮处，取消限制数，再点击全屏。

大数据告诉你:10年漫威，到底有多少角色

#p#副标题#e##p#分页标题#e#

大数据告诉你:10年漫威，到底有多少角色

这里大致能看出来漫威的人物聚集情况。

第一大反派灭霸(thanos)，原来这么孤立的。

这里由于人物太多，造成观察不便，所以对结果进行一些筛选。

比如筛选托尼·斯达克的朋友，运行下面的代码。

match p=(n:people{name:"tonys"})-[:rel{relation:"friend"}]->() return p;

得到下图结果。

大数据告诉你:10年漫威，到底有多少角色

其中「thor」为「雷神」，「stever」为「美队」，「blackw」为「黑寡妇」，「vision」为「幻视」，「peterp」为「蜘蛛侠」，「bruceb」为「绿巨人」。

下面再来看一下美队的女友吧。

大数据告诉你:10年漫威，到底有多少角色

佩吉·卡特和她的侄女莎朗·卡特，据说两人样貌极为相像。

四、总结

本次只是对Neo4j的一些简单操作，后期或许会去深入了解。

此外漫威的这些人物信息，还可以玩出很多花样的。

也希望大家能去动手尝试尝试，做一枚硬核铁粉~

【编辑推荐】

【实战解析】基于HBase的大数据存储在京东的应用场景
大数据开发常见的9种数据分析手段
AI专家：大数据知识图谱——实战经验总结
Splunk利用Splunk Connected Experiences和Splunk Business Flow 扩大数据访问
一篇文章看懂大数据分析就业前景及职能定位

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

热点

大数据告诉你：10年漫威，到底有多少角色

由 dawei

您错过了

站长聚首，共探技术新纪元

站长聚首，共探Android技术新前沿

嵌入式工具链优化实战指南

站长聚会：技术碰撞，共探运营新思维

大数据告诉你：10年漫威，到底有多少角色

由 dawei

相关文章

MsSql进阶：高效存储与触发器实战技巧

后端架构师指南：建站系统全流程解析

政策顾问建站全流程：技术落地必知关键步骤

您错过了

站长聚首，共探技术新纪元

站长聚首，共探Android技术新前沿

嵌入式工具链优化实战指南

站长聚会：技术碰撞，共探运营新思维