通过网页时光机查询域名历史建站记录

网页时光机 说的是一个网站,类似一个“档案馆”的功能,专门记录域名曾经的建站记录。官网:https://web.archive.org互联网上的域名它几乎爬个遍,不说天天爬有些站一个月也爬很多次!从记录就能看出来,有些域名有几千条记录很平常。举个例子,比较有名气的查历史记录的网站,比如:桔子SEO网、聚查等几乎所有查域名历史建站记录的都是从网页时光机里取的数据。桔子铂金VIP价格还可以,只是每周能查6.5万个域名,数量有些太少了,即使是最高的钻石VIP也才每周50万个域名,对我来说还是不够用且价格贵。浏览过我博客的都知道,我是卖域名搬砖的,需求比较特别,查询的量巨大不说,只有另辟蹊径捡到漏才能有利润。思来想去,自己研究了一下网页时光机,去掉中间商省成本,再争取捡到漏。。。计划实现的功能:通过时光机API查询大量域名的记录,筛选出5年内连续建站年限的功能。大量违规词的收集,脚本集成本地违规词库,设计严谨的词库匹配逻辑。把域名的所有建站记录都进行查询,判断所有记录源码中是否有违规词。细节:每日过期域名20多万,仅查询com也有大十几万个。第一步得过滤掉大量连续年限不合格的域名,比如:5年连续建站记录>=2,还剩小几万个域名。接下来就难搞了,经过我各种分析桔子和时光机内容、规则,以及自己的需求,比如:语言必须是中文,记录要全部查询不遗漏等等。所做这些要符合桔子的过滤标准还要比桔子查询的更准确,因为桔子的缓存延迟确实挺长的。买域名的老板们都是以桔子为准,我也应当如此!第一个功能好实现,第二个功能查询量很大,我想到一个办法,就是需要排除掉非中文的不查,这样就轻松很多了。必不可少项:时光机正常是访问不了的,大量查询还得使用代理才行,而且必须是海外代理。海外代理必须在海外服务器上使用才行,要求只有海外IP才可以用海外的代理。使用php-curl多线程和MySQL数据库搭档,在Linux服务器上使用堪称绝配。。。桔子不足之一显示不全:之前单纯用桔子查了一批域名,外加肉眼过滤,本以为筛选的域名都是优秀的合格的,并且付诸行动已抢到手了一批。但是万万没想到,第二日客户用自己桔子账号查询发现又冒出来很多个包含违规词的记录。经过我分析,猜测桔子每次显示的记录不全,不同账号查询、或者不同时间查询显示的记录内容不一致,因此搭建违禁词库自己查询想法更加强烈。付诸行动,开搞陆陆续续,算上测试以及不停的修改,近乎耗时半月时间,修改十来次个版本完美搞定了。所需功能共分两个脚本完成。第一个脚本,查询每日20万个以内的域名,是否符合桔子筛选项“近5年连续≥2”。近5年连续小于2的域名全部排除掉,同时获取所有域名最大连续年限及具体哪些年。第一个脚本就是干这些活的,因为用到了MySQL,分步骤搞更合理、方便,便于调试和修改也省海外代理IP费用。上个gif图片,展示下效果!第二个脚本,逻辑处理比较复杂,7百多行代码,绝大数时间基本是在完善这个脚本。这个脚本虽然行数多,但是真正复杂之处不在于代码的功能实现,而是分析桔子、分析时光机的各种可能性和规则,基本实现桔子的查询逻辑。我的强迫症也要求尽善尽美,实测还是很满意!不多说,上效果图。有一点略微遗憾,本来可以一秒即可加入五百条域名到数据库,但考虑到防止重复,数据库设置了唯一键,需要使用INSERT IGNORE语法比较稳妥,因此当队列少于10000条时写入500条域名入库速度略慢一些,虽然一点影响也没有,就是强迫症有点纠结,为了实用只能慢上几秒了。总结目前这些功能的成功实现,本人还是很满意的,大大节省了时间。每日查询com域名二十来万个,第一个脚本50线程一个多小时基本查完,需要消耗0.2GB海外代理流量吧,这个消耗已经极低了。第二个脚本50线程查询要慢一些,需要大概两三个小时吧,这个需要消耗1.5GB左右吧,也已经优化到最低消耗了。其实可以开100线程,加快查询速度的,但是过犹不及嘛,需要考虑服务器CPU性能,和代理连通率速度并发等。前面也说过,博主职业卖域名的,客户基本都是使用桔子查域名,我的工具只是补充桔子的不足(缓存长,有遗漏,显示查询不全等),最后还是得用桔子撸一遍,只为确保所有的域名都是“好卖的”。目前脚本在自用中,暂时没有放出来的打算,除了同行也没人需要,真有需要第一个脚本功能的可以联系我,可以帮助你把20万域名过滤出来2-3万个域名左右,再用桔子查减少套餐额度限制。打个广告★★★★专注搬砖,自搭违规词库,过滤效果超好★★★★程序逻辑超牛逼,直查时光机所有记录,确保一个不漏,补充桔子各种不足(缓存长,有遗漏,显示不全等等)。无违规词、无拦、无墙、过WX、过QQ、过桔子历史和外链、过百度、过搜狗,独家过iframe框架、过重定向,有中文、有连续历史2年以上、有人工检查、有历史存在等。可提需求私聊TG:Qq33202.3215 关注店铺闭眼拍系列分组!店铺地址:https://www.juming.com/11137/


本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://www.xiaosb.com/beian/53402/