python 简单爬虫下载_Word模板_6

is_105949

暂无简介

python 简单爬虫学习python将近一个月了，学习的过程是崎岖的，重在坚持。自己写的一个python脚本，抓起一个视频网站上的资源中间有重复的内容，运行后会生成6v1文件，里面有所有链接。分享一下，有bug 希望大神指点。奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_n...

学习python将近一个月了，学习的过程是崎岖的，重在坚持。自己写的一个python脚本，抓起一个视频网站上的资源中间有重复的内容，运行后会生成6v1文件，里面有所有链接。分享一下，有bug 希望大神指点。奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_name_read=urllib.request.urlopen('').read() open ('temp1','wb').write(url_name_read) url_open=open('temp','r').read(500) title_start=url_open.find('') title_end=url_open.find('',title_start) title=url_open[title_start+7:title_end-27] return title ##获取main_page中的url main_page=urllib.request.urlopen('').read() main_page=str(main_page) main_li=main_page.find('

') main_href=main_page.find('',main_html) main_href=main_page.find('记录

混凝土养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载

title line_title=get_title(line) print(line_title) if i!=0: open('6v1','a',encoding='UTF-8').write('第'+str(i)+'个页面: '+line_title+'\n') i=i+1 #print(i) open('6v1','a').write('now page is '+line+'\n') print('now page is ',line) #将byte流写入temp文件，再读出，实现编码间转换 page2_b=urllib.request.urlopen(line).read() open('temp','wb').write(page2_b) page2=open('temp').read() l_start=page2.find('",l_href) print(page2[l_href+6:l_end]) print('第',i,'个页面') #循环实现url提取 while True: l_start=page2.find('",l_href) if l_start!=-1 and l_end!=-1 and l_href!=-1: url_url=page2[l_href+6:l_end] url_url1=page2[l_href+6:l_end+100] #判断是否为百度云地址，并获取密码 if url_url.find('baidu')!=-1: baidu_url=url_url1.find('baidu') end_password=url_url1.find('td>',baidu_url) print(url_url,'The password is',url_url1[end_password-10:end_password-2]) open('6v1','a',encoding='UTF-8').write(url_url+' ---The password is:-- '+url_url1[end_password-10:end_password-2]+'\n') else: print( url_url) #encoding='UTF-8'解决print和write不同的情况 open('6v1','a',encoding='UTF-8').write(url_url+'\n') else: print('main page url getted') break

本文档为【python 简单爬虫】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

python 简单爬虫

热门搜索

历史搜索