我是CIH,很高兴有人问3000万FB帐号怎么取样?
以下是数据分析教学。
我们在做数据,一个最重要的是,分母的取样。
分母的取样,必须绝对完全平均分布。
若是从某粉丝页、某部份、你想的任何组合去取样,绝对完全失真。
因为全世界没人知道真正的分布。
我的撷取方式,乱数产生FB用户ID,
用爬虫跟FB Server抓取全世界3000万个乱数用户帐号(分散到全世界不同国家)。
接下来,判断用户真实IP是台湾,再判别是否是活跃用户。
从此台湾数据分析,会以这个当母体。
根据实际抓取,目前全世界FB注册帐号ID分布如下:
4 ~ 1899999999
100000000000000 ~ 100039999999999
从脸书的文件显示,目前FB帐号ID最大可以到100099999989999,
现在FB新帐号ID实际已经用到10003XXXXXXXXXX(我系统抓取实际显示数据)。
有人可能会好奇,脸书ID从4号开始,4号是谁?
可以看一下我脸书之前的贴文:
https://www.facebook.com/2691681504190564
最后,最近我重新抓取全世界脸书帐号,原因是,有些帐号会被砍,有些新帐号会出现。
需要重新让母体取样分布正确,定期需要重新抓。
另外,我之前在帮客户做‘电子商务’用户长相分析与喜爱,发现几个条件组合下,
所剩的母体取样不足,因此我必须‘加大’分母取样数。
今天已经抓到全世界6690万的用户帐号,再过一段时间,破1亿个FB帐号,就停止取样。
这些资料可以知道全世界用户社群关系,用来解析人类行为。
※ 引述《cih4tw (CIH)》之铭言:
: 数据分析:CIH 陈盈豪
: 专长:暴力型逆向工程破解、暴力型脸书爬虫
: 用爬虫扫全世界3,000万笔脸书用户帐号,抓出其中IP来自台湾、中国的帐号