自介档案:
属性:个人-兼职
所在地:台北
联络方式:站内信
专长:R/Python/Matlab/C++ (因工作需求 , 熟练度依顺序递减)
资料分析/DM/ML/爬虫
接案地区:如果能接受远端 , 全台皆可
接案属性:以不影响正职工作为主 , 但如果 pay 甜的话 , 难度较高
或较繁杂的 case 我也可以接
附注:由于爬虫太多 Case-Study 以及随 Case 结构化或标的网站
防御机制强度造成的反向工程问题 , 且 Script 再利用性低
(高的话应该该标的早有API了,应该也不会想找人爬)
若要发爬虫相关的案的话 , 希望先评估资料价值 , 还有总
资料量 , 以及爬取效益问题 , 除非特别简单的case , 可用
现成 template , 否则个人是希望 5,000起 , 一方面也是
筛选,我以前遇过只有300笔资料是对方要的要我写一个破解
内网机器人防治机制 , 希望发案者能明白 , 前处理跟反向
解析过程本身要基础时间 , 更别说伪装等问题 , 希望资料量
跟价值有到一定再考虑发案
作品介绍:
做过Social Network/Spatial Statistic/Logistic/Random Forest
Parallel Computing (Multi-Thread)
最近在往 Hadoop/Spark Clustering , Cross Node Computing努力
如果有疑问怎么没有写爬虫作品的话 , 对我来说爬虫严格来说不算
作品 , 只是一连串的反向工程跟 parser 设计 , 算语法基本功还有
资料结构了解程度的产物