为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

python 简单爬虫

2020-03-06 6页 doc 19KB 7阅读

用户头像

is_105949

暂无简介

举报
python 简单爬虫学习python将近一个月了, 学习的过程是崎岖的, 重在坚持。 自己写的一个python脚本,抓起一个视频网站上的资源 中间有重复的内容, 运行后 会生成6v1文件,里面有所有链接。 分享一下,有bug 希望大神指点。 奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_n...
python 简单爬虫
学习python将近一个月了, 学习的过程是崎岖的, 重在坚持。 自己写的一个python脚本,抓起一个视频网站上的资源 中间有重复的内容, 运行后 会生成6v1文件,里面有所有链接。 分享一下,有bug 希望大神指点。 奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_name_read=urllib.request.urlopen('').read() open ('temp1','wb').write(url_name_read) url_open=open('temp','r').read(500) title_start=url_open.find('') title_end=url_open.find('',title_start) title=url_open[title_start+7:title_end-27] return title ##获取main_page中的url main_page=urllib.request.urlopen('').read() main_page=str(main_page) main_li=main_page.find('
  • ') main_href=main_page.find('',main_html) main_href=main_page.find('记录
  • title line_title=get_title(line) print(line_title) if i!=0: open('6v1','a',encoding='UTF-8').write('第'+str(i)+'个页面: '+line_title+'\n') i=i+1 #print(i) open('6v1','a').write('now page is '+line+'\n') print('now page is ',line) #将byte流写入temp文件,再读出,实现编码间转换 page2_b=urllib.request.urlopen(line).read() open('temp','wb').write(page2_b) page2=open('temp').read() l_start=page2.find('",l_href) print(page2[l_href+6:l_end]) print('第',i,'个页面') #循环实现url提取 while True: l_start=page2.find('",l_href) if  l_start!=-1 and l_end!=-1 and l_href!=-1: url_url=page2[l_href+6:l_end] url_url1=page2[l_href+6:l_end+100] #判断是否为百度云地址,并获取密码 if url_url.find('baidu')!=-1: baidu_url=url_url1.find('baidu') end_password=url_url1.find('td>',baidu_url) print(url_url,'The password is',url_url1[end_password-10:end_password-2]) open('6v1','a',encoding='UTF-8').write(url_url+'  ---The password is:--  '+url_url1[end_password-10:end_password-2]+'\n') else: print( url_url) #encoding='UTF-8'解决print和write不同的情况 open('6v1','a',encoding='UTF-8').write(url_url+'\n') else: print('main page url getted') break
    /
    本文档为【python 简单爬虫】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
    [版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

    历史搜索

      清空历史搜索