python 逐条读取网址xpath采集分析数据方案

from lxml import etree
from bs4 import BeautifulSoup
import requests

def readalight(address):
    html = requests.get(address).content.decode('utf-8')
    ##获取网页代码
    dom_tree = etree.HTML(html)
    ###XPath匹配
    links = dom_tree.xpath('//div[@id="mainCnt"]/p/text()')
    summary = dom_tree.xpath('//p[@class="summary"]/text()')
    for i in summary:
        print(i)
    for i in links:
        print("<p>"+i+"</p>")
    return

#-*- coding: UTF-8 -*- 
f = open('url.txt','r', encoding='UTF-8')
line = f.readline()
while line:
    #print line,面跟 ',' 将忽略换行符  
    print(line, end = '')
    readalight(line)
    line = f.readline()
f.close()


以上为 python 逐条读取网址,xpath采集数据方案

相关推荐

linked-in get email info via python

前言: 几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代 …

python login and craw email address

1、需求 最近受人之托,帮忙用python开发程序实现爬取大连海事大学信箱的2000条数据(主题和意见建议)保存到exce …

阿里云STS token浅析

阿里云STS token浅析 阿呆少爷 关注 非常想搞明白STS token在端上是如何使用的。因为OSS跟STS联系比较紧密,所以 …

暂无评论

微信扫一扫,分享到朋友圈

python 逐条读取网址xpath采集分析数据方案