[发案] Python data pipeline 改善与测试(已结案)

楼主: oNeChanPhile   2021-12-26 03:19:42
[发案] Python data pipeline 改善与测试
发案人:曾先生
联络方式1:站内信
联络方式2:
所在地区 :海外(UTC+1时区)
有效时间:征到为止。2022-01-02前完成,额外加给20%。
专案说明:
现有 data pipeline 包含三个独立运行的docker service:
Common Crawl data retriever, GDELT data retriever 与 data preprocessor。
程式语言为 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中间资料集与结果皆以 MongoDB 储存。
资料处理逻辑与 docker 封装已基本完成,小资料集测试OK。
但推上测试环境爬取真实资料时,发生诸多问题例如
- 各种data bugs除之不尽
- 无法测试并确认scheduler的正确性与可靠性
- 不知道要如何应付网络中断、资料重抓错抓、系统停机重启等各种状况。
主要的requirement就是解决上面的问题,让程式达到可以上线的品质。
接触洽谈流程如下:
发案人会先做一次live demo,
展示目前的code如何运作,解释功能设计与问题瓶颈。
决定接案后,发案人会与接案者共同 refine 一次具体的 requirement spec,
并开放 GitLab private repo 给接案者作业。
预算:NTD 15k
- 2022-01-02前完成,额外加给20%。
- 如须使用AWS等付费服务,事先与发案人讨论即可。费用由发案人负担。
接案者要求:
- 一般 Python 3 服务之开发、测试与维护经验
- 熟悉此类连续运行服务之可靠性设计
- 熟悉 docker 环境调试
- 能够有纪律的执行一般 Git DevOps,例如每个 commit 尽量只做一件事;
commit message 与 changelog 简明清楚等
- (加分项)熟悉平行化程式之设计与除错
- (重要加分项)具相似data pipeline与服务的架设经验
附注:保密义务
楼主: oNeChanPhile   2021-12-27 17:46:00
已加价征到
作者: ok963963ok (冷月无痕)   2021-12-27 13:45:00
发案方自己懂技术还开这种价格真的不行
作者: dogppatrick (没梗)   2021-12-27 12:13:00
这预算真得可怜
作者: gsrr (下五子棋)   2021-12-26 09:28:00
效能优化, 200K, OK的话可以与我联系.
作者: broodstare (交给C4就对了)   2021-12-26 13:31:00
15k? You must be kidding me
作者: howfeeling (行)   2021-12-27 00:17:00
效能优化, 250K, OK的话可以与我联系.

Links booklink

Contact Us: admin [ a t ] ucptt.com