• Home
    • English
    • 中文
  • About Us
  • Services
    • SEO Services
    • Website Design Service
  • Projects
  • Docs
  • Blog
    • Affiliate
    • Ecommerce
    • Frontend
    • linux
      • nginx
    • PHP
      • Magento
      • wordpress
    • Python
    • SEO
    • Web
  • Contact Us

Subscribe to Updates

Get the latest creative news from FooBar about art, design and business.

What's Hot

Design a plugin for wordpress woocommerce to display a tab to show attachment download

2024-04-06

TranslatePress v2.6.9 – WordPress Translation Plugin

2023-12-25

A Linux batch script converting pictures to webp format

2023-07-10
Facebook Twitter Instagram
  • 中文
  • English
Facebook Twitter Instagram Pinterest VKontakte
Weilai Tech Weilai Tech
  • Home
    • English
    • 中文
  • About Us
  • Services
    • SEO Services
    • Website Design Service
  • Projects
  • Docs
  • Blog
    • Affiliate
    • Ecommerce
    • Frontend
    • linux
      • nginx
    • PHP
      • Magento
      • wordpress
    • Python
    • SEO
    • Web
  • Contact Us
Weilai Tech Weilai Tech
Home»Python»linked-in get email info via python
Python

linked-in get email info via python

OxfordBy Oxford2019-12-31No Comments1 Min Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email

前言:
几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代码见Github:LinkedinSpider。
爬虫功能:输入一个公司名称,抓取相关员工的linkedin数据,字段见下方截图。

正文:
先来说一下linkedin的限制:

不登录的状态,不能进行搜索,但是可以查看某个用户的linkedin信息(不够全)。
linkedin可以搜用户(最多显示100页),也可以搜公司,但不能查看公司下面的员工信息(显示的是“领英会员”,没有权限查看详细内容,要求先建立联系,如下图,可能开通linkedin高级账号可以查看,未知)。

那么如果要抓取某个公司员工的linkedin信息,该怎么做?
方法一、银子多,开通高级账号也许可以查看。
方法二、去搜linkedin用户,尽量抓取全量的linkedin用户,从中筛选出某公司的员工。(难度在于如何搜用户,并且因为页数限制,几乎无法抓取全量)。
方法三、借助第三方平台。暂时未发现哪些网站有用到linkedin的数据,但是灵机一动想到了百度收录!我们用百度搜索,搜某个公司名,域名要求linkedin.com(例如抓取对象为百度,可以在百度搜索中搜 “百度 site:linkedin.com”),从中筛选出linkedin用户ID,有了用户ID我们就可以直接去linkedin抓员工信息了。

我们现在用的就是方法三。说一下爬虫流程:
先登录linkedin,带着linkedin的Cookie进行百度搜索,从中筛选出linkedin用户的(跳转到linkedin的)跳转链接,然后抓取、解析。
注意:为了抓取到最新的数据,一般不直接抓取百度收录到的内容,只是通过百度收录抓取到用户ID;另外,要待着linkedin的Cookie去打开搜索出来的链接,不然会跳转到linkedin登录页面,或者抓取到的信息不全。

结语:
代码放在Github,链接上文有提。此文主要作注释说明。
这只是一个小爬虫,我想要分享的,不仅仅是linkedin的登录、linkedin数据的抓取和解析,更重要的,是通过百度收录抓取目标数据这个方法。
对于做爬虫,或者是想学爬虫的同学来说,路子一定要宽,只要能够保证数据准确、完整,应该从各个途径去嗅探、抓取数据,抓取难度越小、速度越快,就越好!

转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/71055153)

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Avatar photo
Oxford

Related Posts

How To Scrape Amazon at Scale With Python Scrapy, And Never Get Banned

2022-01-08

python login and craw email address

2019-12-18

sh auto push static content to github -gogit

2018-12-29

How To Crawl A Web Page with Scrapy and Python 3

2018-11-29
Recent Posts
  • Design a plugin for wordpress woocommerce to display a tab to show attachment download
  • TranslatePress v2.6.9 – WordPress Translation Plugin
  • A Linux batch script converting pictures to webp format
  • Hearing aid listed company official website SEO case
  • how to use docker to run php5.6 plus apache
December 2019
M T W T F S S
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
« Nov   Jan »
Tags
app branding design digital Docly docs etc faq fix github Helpdesk Image issue magento Manual marketing memecached Photography planing seo sequrity tips Travel ui/ux web WordPress 爬虫
Editors Picks
About Us

Guangzhou Weilai Technology is a foreign trade integrated marketing service provider focusing on Google as the drainage center and marketing self-built website as the carrier.

Email Us: [email protected]
Contact: +86 18676917505

Facebook Pinterest YouTube LinkedIn
Recent Posts
  • Design a plugin for wordpress woocommerce to display a tab to show attachment download
  • TranslatePress v2.6.9 – WordPress Translation Plugin
  • A Linux batch script converting pictures to webp format
  • Hearing aid listed company official website SEO case
  • how to use docker to run php5.6 plus apache
From Flickr
Website Design Case
© 2024 Copyright by Guangzhou Weilai Technology Co.,Ltd..
  • Home
  • About Us
  • SEO Services
  • Website Design Service
  • Projects
  • Blog
  • Contact Us

Type above and press Enter to search. Press Esc to cancel.