我是CIH,让我们继续思考与解读数据。
先谈谈数据分析的威力,再谈侦测脸书上网来自‘中国’,这数据为何可以相信?
以下是去年我脸书的数据分析:
里面文章我尽量不解读数据,我习惯让大家学习去思考。
1. FB韩粉,他们的长相如何(最有关连、关注强度)?
https://www.facebook.com/2864879590204087
2. 葛特曼跟吴祥辉的关系其实有中间人,葛特曼后来态度转变是有原因。
https://www.facebook.com/2748857775139603
https://www.facebook.com/2749275435097837
3. 陈其迈‘被按赞’的巴西机器人,其实也集体按其他粉丝页赞。
https://www.facebook.com/2775446002480780
https://www.facebook.com/2776198495738864
关于侦测脸书上网来源,这可能吗?
去年脸书严重漏洞,检视角度(view as),离谱到可以直接取得脸书用户access token。
这个世界,什么事情都有可能发生!
当时,
我需要验证为何侦测FB用户上网来源国家,是可被信赖的数据。
所以我拿俄罗斯来验证。
上网来源是俄罗斯,里面locale是ru_RU(FB用户语言设定是俄语)占91%。
至于中国,这是很特殊的国家,中国人需要翻墙(VPN)才能上脸书。
全世界FB帐号,真实IP来自台湾0.66%,真实IP来自中国0.38%。
简体不代表住在中国的中国人,可能是住在美国、马来西亚的华裔、中国人。
撷取之前我在PTT的贴文,
<全世界‘简体’用户IP来源国家分布>
中国: 79%
美国: 4.41%
台湾: 2.34%
马来西亚: 1.38%
日本: 1.38%
澳洲: 1.17%
新加坡: 0.94%
加拿大: 0.79%
香港: 0.77%
<以下省略>
我看到79%这个数字,我就确定,侦测方法是得到真实的上网来源。
也就是用户透过VPN,我还是可以抓到真实IP来源国家。
验证数据一定要再找其他方法,再次验证。
<帝吧出征>
2016年中国网民“出征”Facebook事件
大量中国网民在蔡英文脸书留言,
https://www.facebook.com/10153130814816065
共有19,606个用户留言,其中用户语言设定:
zh_CN 简体 13,866 71%
zh_TW 繁体 3,192 16%
上网来自中国IP的用户数,占所有用户数62%。
上网来自中国IP而且简体的用户数,占所有用户数55%。
从上面就可以发现,侦测的上网来源,果真是真实IP来源国家。
同时也可以发现,那次行动结合一堆海外中国华侨、住在外国的中国人一起参与。
这几年其实我人生最大的成就感是:
<2012年 徒步环岛 55天 走了1200公里>
https://www.google.com/maps/d/viewer?mid=zJaG38udlOP4.kK23qYPjRN-k
环岛我经过‘阿朗壹古道’,
台东到高雄,我不走南回,也不走线道,
而是‘硬干’走像野柳那种砂岩,沿着海岸线到佳乐水。
九棚村南仁路->出风鼻->佳乐水凉亭
https://tinyurl.com/y8czqhrl
https://tinyurl.com/yacbfvhy
我热爱台湾这个国家、我热爱台湾这块土地。
※ 引述《cih4tw (CIH)》之铭言:
: 数据分析:CIH 陈盈豪
: 专长:暴力型逆向工程破解、暴力型脸书爬虫
: 用爬虫扫全世界3,000万笔脸书用户帐号,抓出其中IP来自台湾、中国的帐号
: <IP来自台湾,Top 10脸书用户locale>
: zh_TW 繁体中文(台湾) 72.9%
: en_US 英语(美国) 8.6%
: zh_CN 简体中文 4.6%
: id_ID 印尼 3.5%
: vi_VN 越南 2.6%
: ko_KR 韩国 1.7%
: ar_AR 阿拉伯 1.1%
: en_GB 英语(英国) 0.87%
: th_TH 泰国 0.81%
: es_LA 西班牙 0.75%
: <IP来自中国(不包括香港、澳门),Top 10脸书用户locale>
: zh_CN 简体中文 45.5%
: en_US 英语(美国) 19.3%
: th_TH 泰国 5.9%
: id_ID 印尼 5.6%
: en_GB 英语(英国) 3.8%
: vi_VN 越南 3.1%
: zh_TW 繁体中文(台湾) 2.7%
: ar_AR 阿拉伯 2.0%
: fr_FR 法国 1.8%
: es_LA 西班牙 1.4%