奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌

您現(xiàn)在所在的位置:首頁 >關(guān)于奇酷 > 媒體報(bào)道 > 年關(guān)到了,欠下的Python爬蟲“亂碼”改完了嗎?!

年關(guān)到了,欠下的Python爬蟲“亂碼”改完了嗎?!

來源:奇酷教育 發(fā)表于:

現(xiàn)指的是指快過年了,Python爬取網(wǎng)站時(shí),欠下的亂碼還沒有改完!

  所謂年關(guān),指農(nóng)歷年底。舊時(shí)欠租、負(fù)債的人在這時(shí)需要清償債務(wù),過年像過關(guān)一樣,所以稱為年關(guān)。
 
  現(xiàn)指的是指快過年了,Python爬取網(wǎng)站時(shí),欠下的亂碼還沒有改完!
 
  一、亂碼問題的出現(xiàn)
 
  以爬取51job網(wǎng)站舉例,講講為何會(huì)出現(xiàn)“亂碼”問題,如何解決它以及其背后的機(jī)制。
 
  代碼示例:
  顯示結(jié)果:
 
  打印res.text時(shí),發(fā)現(xiàn)了什么?中文亂碼!!!不過發(fā)現(xiàn),網(wǎng)頁的字符集類型采用的gbk編碼格式。
 
  我們知道Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測。當(dāng)你訪問 r.text 之時(shí),Requests 會(huì)使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用r.encoding 屬性來改變它。
 
  接下來,我們一起通過resquests的一些用法,來看看Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼方式。
 
  輸出結(jié)果為:
 
  可以發(fā)現(xiàn)Requests 推測的文本編碼(也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換)與源網(wǎng)頁編碼不一致,由此可知其正是導(dǎo)致亂碼原因。
 
  二、亂碼背后的奧秘
 
  當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式,都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。
 
  注意:區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。
 
  在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系,大概如下:
 
  最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。
 
  年中國人民通過對(duì) ASCII 編碼的中文擴(kuò)充改造,產(chǎn)生了 GB2312 編碼,可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了 GBK 編碼,它包括了 GB2312 中的編碼,同時(shí)擴(kuò)充了很多。中國又是個(gè)多民族國家,各個(gè)民族幾乎都有自己獨(dú)立的語言系統(tǒng),為了表示那些字符,繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個(gè)國家都像中國一樣,把自己的語言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有 UNICODE 這種編碼系統(tǒng),無論是全球哪種文字,只需要保存文件的時(shí)候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16,分別每次傳輸 8個(gè)位和 16個(gè)位。于是就會(huì)有人產(chǎn)生疑問,UTF-8 既然能保存那么多文字、符號(hào),為什么國內(nèi)還有這么多使用 GBK 等編碼的人?因?yàn)?UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。
 
  也可以這樣來理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過二進(jìn)制形式存儲(chǔ),這種二進(jìn)制形式就是編碼。如果直接使用 “字符串??字符??二進(jìn)制表示(編碼)” ,會(huì)增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層,“字符串??字符??與存儲(chǔ)無關(guān)的表示??二進(jìn)制表示(編碼)” ,這樣,可以用一種與存儲(chǔ)無關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,unicode 就是 “與存儲(chǔ)無關(guān)的表示”,utf—8 就是 “二進(jìn)制表示”。
 
  三、亂碼的解決方法
 
  根據(jù)原因來找解決方法,就非常簡單了。
 
  方法一:直接指定res.encoding
 
  方法二:
 
  通過res.apparent_encoding屬性指定
 
  方法三:通過編碼、解碼的方式
 
  輸出結(jié)果:

 
  基本思路三步走:確定源網(wǎng)頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對(duì)源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。至于為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多,不可能使用數(shù)據(jù)時(shí),再轉(zhuǎn)化為其原始的數(shù)據(jù),假使這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對(duì)抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼,從而在使用時(shí)做到一致對(duì)外,方便使用。
 
  比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來,則會(huì)將起轉(zhuǎn)為utf-8,代碼如下:

 
  四、總結(jié)
 
  關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題,本文不僅給出了一個(gè)解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如,utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問題?
 
  文章精選
 
  圍觀
 
  爬蟲實(shí)戰(zhàn)丨高能預(yù)警!抖音小姐姐視頻集來了!
 
  熱文
 
  天Python訓(xùn)練營;干貨+實(shí)戰(zhàn)萬元禮包免費(fèi)領(lǐng)!
 
  學(xué)習(xí)像闖關(guān)太難,戳原文底部人生三級(jí)跳
主站蜘蛛池模板: 纸塑分离机-纸塑分离清洗机设备-压力筛-碎浆机厂家金双联环保 | 山东钢衬塑罐_管道_反应釜厂家-淄博富邦滚塑防腐设备科技有限公司 | 南京和瑞包装有限公司| 全自动固相萃取仪_高通量真空平行浓缩仪-勤业永为 | 吸污车_吸粪车_抽粪车_电动三轮吸粪车_真空吸污车_高压清洗吸污车-远大汽车制造有限公司 | 注塑机-压铸机-塑料注塑机-卧式注塑机-高速注塑机-单缸注塑机厂家-广东联升精密智能装备科技有限公司 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | 钢托盘,钢制托盘,立库钢托盘,金属托盘制造商_南京飞天金属制品实业有限公司 | 茶叶百科网-茶叶知识与茶文化探讨分享平台 | 上海律师事务所_上海刑事律师免费咨询平台-煊宏律师事务所 | 热镀锌槽钢|角钢|工字钢|圆钢|H型钢|扁钢|花纹板-天津千百顺钢铁贸易有限公司 | 防水套管_柔性防水套管_刚性防水套管-巩义市润达管道设备制造有限公司 | 衢州装饰公司|装潢公司|办公楼装修|排屋装修|别墅装修-衢州佳盛装饰 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 蒸汽吸附分析仪-进口水分活度仪|康宝百科 | 自动化展_机器人展_机床展_工业互联网展_广东佛山工博会 | 纸布|钩编布|钩针布|纸草布-莱州佳源工艺纸布厂 | 南京雕塑制作厂家-不锈钢雕塑制作-玻璃钢雕塑制作-先登雕塑厂 | 粤丰硕水性环氧地坪漆-防静电自流平厂家-环保地坪涂料代理 | 欧必特空气能-商用空气能热水工程,空气能热水器,超低温空气源热泵生产厂家-湖南欧必特空气能公司 | 医院专用门厂家报价-医用病房门尺寸大全-抗菌木门品牌推荐 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折! | 真空泵维修保养,普发,阿尔卡特,荏原,卡西亚玛,莱宝,爱德华干式螺杆真空泵维修-东莞比其尔真空机电设备有限公司 | 美名宝起名网-在线宝宝、公司、起名平台 | 缝纫客 | 全自动不干胶贴标机_套标机-上海今昂贴标机生产厂家 | 浇钢砖,流钢砖_厂家价低-淄博恒森耐火材料有限公司 | 苹果售后维修点查询,苹果iPhone授权售后维修服务中心 – 修果网 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 水压力传感器_数字压力传感器|佛山一众传感仪器有限公司|首页 | 不锈钢搅拌罐_高速搅拌罐厂家-无锡市凡格德化工装备科技有限公司 | 天津蒸汽/热水锅炉-电锅炉安装维修直销厂家-天津鑫淼暖通设备有限公司 | 123悬赏网_发布悬赏任务_广告任务平台 | 高压贴片电容|贴片安规电容|三端滤波器|风华电容代理南京南山 | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 耐酸碱泵-自吸耐酸碱泵型号「品牌厂家」立式耐酸碱泵价格-昆山国宝过滤机有限公司首页 | 亮化工程,亮化设计,城市亮化工程,亮化资质合作,长沙亮化照明,杰奥思【官网】 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 冷却塔减速机器_冷却塔皮带箱维修厂家_凉水塔风机电机更换-广东康明冷却塔厂家 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 盘装氧量分析仪-防爆壁挂氧化锆分析仪-安徽吉帆仪表有限公司 |