1、負責網頁文本的抓取,存儲,濾噪,去重等后期清理工作。
資格/Qualification
1、有爬蟲、網頁正文提取、分詞和特征提取等相關經驗 ;
2、熟悉linux、python、java,對數(shù)據庫有一定了解 ;
3、理解http,熟悉html、DOM、xpath,熟悉webmagic優(yōu)先 ;
4、有1年以上工作經驗優(yōu)先;優(yōu)秀應屆生優(yōu)先。
行業(yè) | 數(shù)據分析/運作部/電腦部 | 職位 | 程序員 |
招聘部門 | 招聘人數(shù) | 若干 | |
工作地區(qū) | 北京 | 工作性質 | 全職 |
性別要求 | 不限 | 婚姻要求 | 不限 |
學歷要求 | 本科 | 工作經驗 | 1年以上 |
年齡要求 | 不限年齡 | 待遇水平 | 面議 |
更新日期 | 2017-12-28 | 有效期至 | 長期有效 |