学会这一招作品持续上热门 (学会信息检索)

笔者是做铜合金销售工作的,主要在网上发布产品信息,以便用户可以通过互联网搜索到我的产品,目前网上有很多免费信息发布平台,可以在上面免费发布信息,这些信息发布量大,仅靠手动发布的速度很慢,也没有多少阅读量,很难引起搜索引擎的注意,收录的速度很慢,排名也不会很高。

如何快速增加阅读量呢?最近笔者在学python,python是很好的脚本编写语言,提供了很多库,可以方便的用来编写脚本,python还是源代码共享的,网上也有很多共享的代码可以学习和使用。

学会这招马上让你脱颖而出,网页被限制搜索引擎抓取怎么办

笔者使用requesets和selenium库,编写了一个小脚本,他实现这个功能,从网络上查找代理IP,使用代理IP去刷自己的发布的网页,模拟用户阅读,阅读完毕关闭浏览器。

以下是源代理

from selenium import webdriver, commonfrom bs4 import BeautifulSoupimport timeimport requestsimport threadingimport randomheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/81.0.4044.129 Safari/537.36'}urls = [ "https://www.toutiao.com/i6823261876420346380/", "http://www.hybbs.net/thread-1740964-1-1.html"]num = 0def xici_ip(page): for num_page in range(1, page + 1): url_part = "http://www.xicidaili.com/wn/" # 爬取西刺代理的IP,此处选的是国内https url = url_part + str(num_page) # 构建爬取的页面URL r = requests.get(url, headers=headers) if r.status_code == 200: soup = BeautifulSoup(r.text, 'lxml') trs = soup.find_all('tr') for i in range(1, len(trs)): tr = trs[i] tds = tr.find_all('td') ip_item = tds[1].text + ':' + tds[2].text print('抓取第' + str(num_page) + '页第' + str(i) + '个:' + ip_item) with open(r'D:\ip.txt', 'a', encoding='utf-8') as f: f.writelines(ip_item + '\n')def get_ip(): with open(r'D:\ip.txt', 'r', encoding='utf-8') as f: lines = f.readlines() while True: ip_str = random.choice(lines) proxies = {'HTTPS': 'HTTPS://' + ip_str.replace('\n', '')} print(proxies) try: r = requests.get('http://httpbin.org/ip', headers=headers, proxies=proxies, timeout=10) if r.status_code == 200: return ip_str except Exception as e: print(e)def shuawangye(): global num global urls while True: option = webdriver.ChromeOptions() proxies = "--proxy-server={‘https':'https://" + get_ip().replace('\n', '') + "\'}" print(proxies) option.add_argument(proxies) # 增加代理IP option.add_argument('headless') # 这里是重点,增加一个参数headless,即可实现在不打开浏览器的情况下完成系列操作 for j in range(len(urls)): browser = webdriver.Chrome(options=option) # 实例化一个浏览器对象 print(urls[j]) browser.get(urls[j]) # 遍历地址列表 browser.maximize_window() # 最大化浏览器 sleeptime = random.randint(2, 5) # 生成一个2到5之间的数 time.sleep(sleeptime) # 延迟2到5秒 browser*ex.e**cute_script('window.scrollTo(0, document.body.scrollHeight)') sleeptime = random.randint(2, 5) # 生成一个2到5之间的数 time.sleep(sleeptime) # 延迟2到5秒 browser.quit() # 退出浏览器 num = num + 1 print(num)if __name__ == '__main__': xici_ip(100) t1 = threading.Thread(target=shuawangye) t2 = threading.Thread(target=shuawangye) t3 = threading.Thread(target=shuawangye) t4 = threading.Thread(target=shuawangye) t5 = threading.Thread(target=shuawangye) t6 = threading.Thread(target=shuawangye) t7 = threading.Thread(target=shuawangye) t8 = threading.Thread(target=shuawangye) t9 = threading.Thread(target=shuawangye) t10 = threading.Thread(target=shuawangye) t11 = threading.Thread(target=shuawangye) t1.start() t2.start() t3.start() t4.start() t5.start() t6.start() t7.start() t8.start() t9.start() t10.start() t11.start()程序能正常运行,有对python有研究的可以关注并留言交流。