Year: 2019

前言: 几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代码见Github:LinkedinSpider。 爬虫功能:输入一个公司名称,抓取相关员工的linkedin数据,字段见下方截图。 正文: 先来说一下linkedin的限制: 不登录的状态,不能进行搜索,但是可以查看某个用户的linkedin信息(不够全)。 linkedin可以搜用户(最多显示100页),也可以搜公司,但不能查看公司下面的员工信息(显示的是“领英会员”,没有权限查看详细内容,要求先建立联系,如下图,可能开通linkedin高级账号可以查看,未知)。 那么如果要抓取某个公司员工的linkedin信息,该怎么做? 方法一、银子多,开通高级账号也许可以查看。 方法二、去搜linkedin用户,尽量抓取全量的linkedin用户,从中筛选出某公司的员工。(难度在于如何搜用户,并且因为页数限制,几乎无法抓取全量)。 方法三、借助第三方平台。暂时未发现哪些网站有用到linkedin的数据,但是灵机一动想到了百度收录!我们用百度搜索,搜某个公司名,域名要求linkedin.com(例如抓取对象为百度,可以在百度搜索中搜 “百度 site:linkedin.com”),从中筛选出linkedin用户ID,有了用户ID我们就可以直接去linkedin抓员工信息了。 我们现在用的就是方法三。说一下爬虫流程: 先登录linkedin,带着linkedin的Cookie进行百度搜索,从中筛选出linkedin用户的(跳转到linkedin的)跳转链接,然后抓取、解析。 注意:为了抓取到最新的数据,一般不直接抓取百度收录到的内容,只是通过百度收录抓取到用户ID;另外,要待着linkedin的Cookie去打开搜索出来的链接,不然会跳转到linkedin登录页面,或者抓取到的信息不全。 结语: 代码放在Github,链接上文有提。此文主要作注释说明。 这只是一个小爬虫,我想要分享的,不仅仅是linkedin的登录、linkedin数据的抓取和解析,更重要的,是通过百度收录抓取目标数据这个方法。 对于做爬虫,或者是想学爬虫的同学来说,路子一定要宽,只要能够保证数据准确、完整,应该从各个途径去嗅探、抓取数据,抓取难度越小、速度越快,就越好!…

1、需求 最近受人之托,帮忙用python开发程序实现爬取大连海事大学信箱的2000条数据(主题和意见建议)保存到excel中。 2、项目分析 首先,我们打开信箱列表链接http://oa.dlmu.edu.cn/echoWall/listEchoWall.do如图所示: 但是列表页中只有主题,获取意见建议必须进入到详情页面,当点击某一条时发现跳转到登录页面                     https://id.dlmu.edu.cn/cas/login,这就说明获取想要的数据必须登录之后才可以,如图所示: 我们打开chrome的开发者工具,填写好提前准备好的账户密码,点击登录,在开发者工具中查看登录的请求如下所示: 通过观察我们发现登录过程中除了输入的账户密码还有其他的几个参数,其中有几个参数为空,说明可以不用传。 接着往下看登录成功之后,直接跳转到详情页面: 通过观察我们可以看到在请求详情页面时候带有cookie,还有其他参数4个,经过测试我们发现只要带pkId这个参数就可以获取到详情页面,pkId可以在列表页中获取到。 至此,整个请求的过程我们已经分析完毕。…

Opera 40 內建免費無限流量 VPN,一鍵翻牆隱藏 IP 教學(Windows、Mac) 今年四月底,Opera 瀏覽器宣布將內建免費 VPN 服務,會這麼做是因為 Opera 公司注意到越來越多使用者擔心他們的線上瀏覽隱私,但網路上常見的 VPN 服務設定複雜和付費等因素使一般民眾卻步,最好的解決方案就是將這項功能加入瀏覽器,而且非常大手筆的免費提供給所有用戶使用。五月中 Opera 也在行動裝置推出免費 VPN,教學可參考「Opera 推出免費 VPN 應用程式,無限流量一鍵切換隱藏連線位置(iOS、Android)」一文。 其實有越來越多的 VPN 工具被設計為…

#https://www.vpseo.com/2019/10/16/wp-super-cache-and-nginx-config/ #https://www.vpseo.com/2019/09/06/wp-rocket%E9%85%8D%E5%90%88nginx%E5%AE%9E%E7%8E%B0%E7%BA%AF%E9%9D%99%E6%80%81%E5%8C%96%E5%8A%A0%E9%80%9Fwordpress%EF%BC%8Crocket-nginx/ now you can use the simply static and wp-rocket plugin together.   below code is edit base on…

OpenLiteSpeed 是 LiteSpeed Technologies 开发的开源HTTP服务器。OpenLiteSpeed 具有高性能和轻量级的特点,并带有一个 Web GUI 管理界面,可以处理超过十万个具有低资源使用(CPU 和 RAM)的并发连接。OpenLiteSpeed 支持许多操作系统,如 Linux,Mac OS,FreeBSD 和 SunOS,可用于运行用 PHP,Ruby Perl 和 java…

location / { proxy_pass http://ghs.google.com; proxy_set_header Host w.mai1.me; proxy_redirect off; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header Cookie “”; proxy_hide_header…