高级爬虫工程师

岗位职责:

1. 遵循robots 协议,对互联网公开信息进行采集;

2. 负责网页信息抽取技术算法的研究和开发,提升数据抓取的效率和质量;

3. 负责设计和开发分布式的网络爬虫,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据抓取的效果与性能;

4.负责爬虫数据解析入库、系统异常监控与警报等。

任职要求:

1. 本科C9及以上学历,两年及以上爬虫抓取采集相关工作经验,至少一年海量数据爬存经验;

2. 熟练掌握HTML、JavaScript、Python、Scrapy等,能快速完成采集脚本的编写;

3. 熟悉主流爬取技术及爬虫框架工具,如Selenium/Puppeteer/PhantomJS/Scarapy等;

4. 掌握分布式系统使用方式,如Ray、Spark、Hadoop等;

5. 了解NLP基本技术,实际使用过如 Fasttext、N-gram、Bert、GPT 等算法和模型者优先;

6. 熟悉常见反爬封禁策略,具备相关的实战经验。
引流
高维
问月
靖奇
雷根
赫富
双隆
坤望
稳博
衍盛
成均
白鹭
衍复
孝庸
同花顺
英仕曼
幻方
小惠
珏朔
大道
洛书
蒙玺
思勰
天演
平方和
龙鳞
凯读
奥奇.齐夫
卡方
上国象
泛态
盛泉恒元
诚奇
臻财
非凸
金湖无量
秃鹫基金
或然投资
中信期货
貔坤
纽达
鸣石
量盈
天算量化
华钧广汇
致诚卓远
玄元
博煊
念空
城堡投资
盈赢
会世
灵均
安贤
敦和
茂源
凯丰
量派
知至恒
艾略特
博普
黑翼
涵德
集微
海悦
思晔
宽德
幂达
元胜投资
玉数投资
芷瀚
磐通
灏象
君拙
九坤
希格斯
衍舟
卓识
神策
香农
鲁民投
源晖
德劭
凯纳
无涯
锐天
乾象
艾方
高盈国际
微观博易
盛冠达
佳期
偲科聆
明汯
燧石投资
桥水
高塔
金鍀
祥寓
罡兴
文艺复兴
金戈量锐
通怡
二西格玛
正定
量游
千惠
因诺
顽岩
仲阳天王星
世纪前沿
明崚
上善御富
量桥
玄信
中量投
细水投资
进化论
千象
悬铃
虑得
聚宽
龙旗
量道
火币
星阔
元盛资本
概率
千禧
伯兄
鸣熙
博益安盈
启林
全部评论
工作地点在哪里哇
点赞 回复 分享
发布于 2023-05-31 12:57 四川
本科学历不能商量吗
点赞 回复 分享
发布于 2023-05-31 11:03 山西

相关推荐

头像
10-13 18:10
已编辑
东南大学 C++
。收拾收拾心情下一家吧————————————————10.12更新上面不知道怎么的,每次在手机上编辑都会只有最后一行才会显示。原本不想写凉经的,太伤感情了,但过了一天想了想,凉经的拿起来好好整理,就像象棋一样,你进步最快的时候不是你赢棋的时候,而是在输棋的时候。那废话不多说,就做个复盘吧。一面:1,经典自我介绍2,项目盘问,没啥好说的,感觉问的不是很多3,八股问的比较奇怪,他会深挖性地问一些,比如,我知道MMU,那你知不知道QMMU(记得是这个,总之就是MMU前面加一个字母)4,知不知道slab内存分配器->这个我清楚5,知不知道排序算法,排序算法一般怎么用6,写一道力扣的,最长回文子串反问:1,工作内容2,工作强度3,关于友商的问题->后面这个问题问HR去了,和中兴有关,数通这个行业和友商相关的不要提,这个行业和别的行业不同,别的行业干同一行的都是竞争关系,数通这个行业的不同企业的关系比较微妙。特别细节的问题我确实不知道,但一面没挂我。接下来是我被挂的二面,先说说我挂在哪里,技术性问题我应该没啥问题,主要是一些解决问题思路上的回答,一方面是这方面我准备的不多,另一方面是这个面试写的是“专业面试二面”,但是感觉问的问题都是一些主管面/综合面才会问的问题,就是不问技术问方法论。我以前形成的思维定式就是专业面会就是会,不会就直说不会,但事实上如果问到方法论性质的问题的话得扯一下皮,不能按照上面这个模式。刚到位置上就看到面试官叹了一口气,有一些不详的预感。我是下午1点45左右面的。1,经典自我介绍2,你是怎么完成这个项目的,分成几个步骤。我大致说了一下。你有没有觉得你的步骤里面缺了一些什么,(这里已经在引导我往他想的那个方向走了),比如你一个人的能力永远是不够的,,,我们平时会有一些组内的会议来沟通我们的所思所想。。。。3,你在项目中遇到的最困难的地方在什么方面4,说一下你知道的TCP/IP协议网络模型中的网络层有关的协议......5,接着4问,你觉得现在的socket有什么样的缺点,有什么样的优化方向?6,中间手撕了一道很简单的快慢指针的问题。大概是在链表的倒数第N个位置插入一个节点。————————————————————————————————————10.13晚更新补充一下一面说的一些奇怪的概念:1,提到了RPC2,提到了fu(第四声)拷贝,我当时说我只知道零拷贝,知道mmap,然后他说mmap是其中的一种方式,然后他问我知不知道DPDK,我说不知道,他说这个是一个高性能的拷贝方式3,MMU这个前面加了一个什么字母我这里没记,别问我了4,后面还提到了LTU,VFIO,孩子真的不会。
走呀走:华子二面可能会有场景题的,是有些开放性的问题了
点赞 评论 收藏
分享
活泼的代码渣渣在泡池...:哈哈哈挺好的,我也上岸美团了,不说了,我又接了一单
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务