奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現(xiàn)在所在的位置:首頁 >關于奇酷 > 行業(yè)動態(tài) > 一份可以找工作的爬蟲學習大綱

一份可以找工作的爬蟲學習大綱

來源:奇酷教育 發(fā)表于:

爬蟲學到什么程度可以找工作?

  一份可以找工作的爬蟲學習大綱
 
  開 篇
 
  爬蟲學到什么程度可以找工作?
 
  爬蟲的本質(zhì)是模擬人的操作,發(fā)起請求,獲取正確的服務器返回的數(shù)據(jù)。所以網(wǎng)絡這一塊需要相對熟悉,尤其是http協(xié)議。在此基礎上,開啟脫發(fā)之旅吧!
 
  敲黑板:必要部分
 
  ·語言選擇:一般是了解Python、Java、Golang之一
 
  ·熟悉多線程編程、網(wǎng)絡編程、HTTP協(xié)議相關
 
  ·開發(fā)過完整爬蟲項目:最好有全站爬蟲經(jīng)驗
 
  ·反爬相關:cookie、ip池、驗證碼等等
 
  ·熟練使用分布式
 
  非必要部分
 
  ·了解消息隊列,如RabbitMQ、Kafka、Redis等
 
  ·具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學習經(jīng)驗
 
  ·熟悉APP數(shù)據(jù)采集、中間人代理
 
  ·大數(shù)據(jù)處理
 
  ·數(shù)據(jù)庫Mysql,redis,mongdb
 
  ·熟悉Git操作、linux環(huán)境開發(fā)
 
  ·讀懂js代碼,這個真的很重要
 
  一份可以找工作的爬蟲學習大綱
 
  基礎篇
 
  基礎篇
 
  一、邁出吃牢飯的第一步:cc攻擊
 
  關于requests需要學習的知識點:
 
  發(fā)送請求
 
  添加參數(shù)
 
  設置請求頭
 
  設置代理ip(或者使用第三方服務)
 
  網(wǎng)絡異常處理
 
  Json數(shù)據(jù)如何處理
 
  二、沒有技術含量的體力活——xpath,css,re
 
  json的話,有很多解析庫,直接轉為字典處理就行。
 
  html的話,xpath,css,re都可以。
 
  js的話,那就re,但有時候,返回的js經(jīng)過re的處理,可以轉為html或者json。
 
  三、搶別人的飯碗——Selenium自動化測試工具
 
  配置環(huán)境
 
  定位元素,獲取屬性與文本
 
  動作鏈:點擊,移動,拖拽,按鍵
 
  下拉框,彈窗,iframe,標簽操作
 
  顯示等待與隱式等
 
  提高效率,設置UA與代理
 
  四、Web也就那樣了——APP爬蟲
 
  越來越多的公司轉向移動端,web端只留給你一個app二維碼。
 
  常見的抓包工具:Fiddler,Wireshark,Charies。
 
  主要目的就是為了獲取app的請求,進行分析。畢竟app沒有像瀏覽器一樣,有自帶的網(wǎng)絡分析調(diào)試工具。
 
  進階篇
 
  進階篇
 
  一、如何快速吃牢飯——加速
 
  (1)理解阻塞、非阻塞、同步、異步、并發(fā)、并行概念
 
  (2)熟悉python隊列的使用以及MQ的概念
 
  (3)多進程、進程池和進程間通信
 
  (4)多線程、線程封裝、線程全局變量、線程互斥、守護線程以及join的用法
 
  (5)協(xié)程、yield關鍵字、gevent、猴子補丁、asyncio
 
  (6)異步請求輪子aiohttp
 
  (7)常見解決方案:多線+異步(scrapy的原理)或 多進程+異步
 
  二、框架在手,天下我有——輪子真香
 
  爬蟲領域,只此一家——scrapy。
 
  官方教程:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
 
  scrapy是一個python爬蟲框架。我們自己用requests也能寫爬蟲(GET某個URL,然后Parse網(wǎng)頁的內(nèi)容)。
 
  (1)理解五大模塊與兩大中間件的概念和作用
 
  (2)熟悉scrapy流程和配置
 
  (3)如何更換為其他數(shù)據(jù)庫
 
  三、程序員之間的愛恨情仇——高級的反爬
 
  驗證碼與js加密
 
  (1)驗證碼常見的有:
 
  純數(shù)字
 
  純英文
 
  英文加數(shù)字
 
  計算題
 
  12306分類選擇
 
  點選成語
 
  手機驗證碼
 
  滑動驗證碼
 
  特殊軌跡拖動
 
  拖動旋轉圖片
 
  (2)驗證碼這里不考慮上機器學習的話,
 
  常用的幾種方案:
 
  使用cookie來避免一部分驗證碼
 
  Tesseract-OCR識別工具
 
  使用第三方打碼平臺
 
  (3)js加密,嗯~~,燒頭發(fā)的東西。關于js需要掌握的知識:
 
  (1)如何處理代碼混淆
 
  (2)時間戳和哈希
 
  (3)PyExecJS庫的使用
 
  (4)瀏覽器網(wǎng)絡分析工具
 
  (4)App逆向,嗯~~,更燒頭發(fā)。
 
  反編譯工具的使用
 
  Android基本文件結構
 
  App調(diào)試與抓包
 
  常見四種加固方式
 
  四、建一個情報系統(tǒng)——爬蟲監(jiān)控可視化
 
  (1)Gerapy
 
  Gerapy是一款分布式爬蟲管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發(fā)。
 
  (2)Grafana
 
  Grafana是一款采用 go 語言編寫的開源應用,主要用于大規(guī)模指標數(shù)據(jù)的可視化展現(xiàn),是網(wǎng)絡架構和應用分析中最流行的時序數(shù)據(jù)展示工具,目前已經(jīng)支持絕大部分常用的時序數(shù)據(jù)庫。
 
  官方文檔:http://docs.grafana.org/
 
  實際項目經(jīng)驗
 
  實際項目經(jīng)驗才是真正的開始:
 
  ·爬過哪些網(wǎng)站?
 
  ·日均最大采集量是多少?
 
  ·你遇到哪些棘手問題,如何解決?
 
  真正的開始
 
  1.去各大學習論壇提問
 
  2.去百度和谷歌搜下這個網(wǎng)站有沒有人分享出你要爬數(shù)據(jù)的API
 
  3.看看電腦網(wǎng)頁有沒有你要的數(shù)據(jù),寫點代碼測試調(diào)查下好不好拿,不管好不好拿,也不要急著就開爬
 
  4.看看有沒有電腦能打開的手機網(wǎng)站,一般格式為http://m.xxx.com或
 
  http://mobile.xxxx.com,有的話可以用F12檢查抓下包,看下抓取難易程度
 
  5.看看有沒有手機App,抓下App的包,看能不能抓到接口,如果新版抓不到,可以嘗試舊版本
 
  6.嘗試分析app的一些分享外鏈
 
  7.抓下公眾號和小程序的包,看能不能抓到接口
 
  8.都不好弄的話,嘗試的話selenium/airtest
 
  9.最高境界:web端破解js 移動端逆向破解
 
  10.放棄抵抗:js爬蟲,人肉爬蟲
 
  以上調(diào)查完成后,再去確定你要選擇的爬取方式。
主站蜘蛛池模板: 坏男孩影院-提供最新电影_动漫_综艺_电视剧_迅雷免费电影最新观看 | HEYL硬度计量泵-荧光法在线溶解氧仪-净时测控技术(上海)有限公司 | 创富网-B2B网站|供求信息网|b2b平台|专业电子商务网站 | 自动检重秤-动态称重机-重量分选秤-苏州金钻称重设备系统开发有限公司 | 搅拌磨|搅拌球磨机|循环磨|循环球磨机-无锡市少宏粉体科技有限公司 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | Trimos测长机_测高仪_TESA_mahr,WYLER水平仪,PWB对刀仪-德瑞华测量技术(苏州)有限公司 | 柔性输送线|柔性链板|齿形链-上海赫勒输送设备有限公司首页[输送机] | 螺旋叶片_螺旋叶片成型机_绞龙叶片_莱州源泽机械制造有限公司 | WTB5光栅尺-JIE WILL磁栅尺-B60数显表-常州中崴机电科技有限公司 | 冷却塔厂家_冷却塔维修_冷却塔改造_凉水塔配件填料公司- 广东康明节能空调有限公司 | 全自动实验室洗瓶机,移液管|培养皿|进样瓶清洗机,清洗剂-广州摩特伟希尔机械设备有限责任公司 | 四川职高信息网-初高中、大专、职业技术学校招生信息网 | 钢格板|热镀锌钢格板|钢格栅板|钢格栅|格栅板-安平县昊泽丝网制品有限公司 | 定制/定做衬衫厂家/公司-衬衫订做/订制价格/费用-北京圣达信 | 拉曼光谱仪_便携式|激光|显微共焦拉曼光谱仪-北京卓立汉光仪器有限公司 | 证券新闻,热播美式保罗1984第二部_腾讯1080p-仁爱影院 | 换链神器官网-友情链接交换、购买交易于一体的站长平台 | 定制液氮罐_小型气相液氮罐_自增压液氮罐_班德液氮罐厂家 | 高压包-点火器-高压发生器-点火变压器-江苏天网 | 今日热点_实时热点_奇闻异事_趣闻趣事_灵异事件 - 奇闻事件 | 数控专用机床,专用机床,自动线,组合机床,动力头,自动化加工生产线,江苏海鑫机床有限公司 | 电主轴,车床电磨头,变频制动电机-博山鸿达特种电机 | AR开发公司_AR增强现实_AR工业_AR巡检|上海集英科技 | 成都LED显示屏丨室内户外全彩led屏厂家方案报价_四川诺显科技 | bng防爆挠性连接管-定做金属防爆挠性管-依客思防爆科技 | 国际高中-国际学校-一站式择校服务-远播国际教育 | 代做标书-代写标书-专业标书文件编辑-「深圳卓越创兴公司」 | AR开发公司_AR增强现实_AR工业_AR巡检|上海集英科技 | 成都热收缩包装机_袖口式膜包机_高速塑封机价格_全自动封切机器_大型套膜机厂家 | 有福网(yofus.com)洗照片冲印,毕业聚会纪念册相册制作个性DIY平台 | 镀锌钢格栅_热镀锌格栅板_钢格栅板_热镀锌钢格板-安平县昊泽丝网制品有限公司 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 浙江栓钉_焊钉_剪力钉厂家批发_杭州八建五金制造有限公司 | 螺杆泵_中成泵业| 河南正规膏药生产厂家-膏药贴牌-膏药代加工-修康药业集团官网 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 天津云仓-天津仓储物流-天津云仓一件代发-顺东云仓 | 苏州同创电子有限公司 - 四探针测试仪源头厂家 | 甲级防雷检测仪-乙级防雷检测仪厂家-上海胜绪电气有限公司 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 |