您现在的位置是:首页 > 站长新闻站长新闻
「SEO工具」python百度下拉框关键词采集及源码解读
2021-06-12【站长新闻】人已围观
简介对于词的研究,想必每个seoer都知道,而除了比较热门的百度相关搜索词之外,百度下拉框关键词应该也是不少人研究的范围,不过大部分人都是针对下拉框词的刷量,毕竟百度下拉框关键词采集已经泛滥成灾了。百度下拉的官方正式叫法是百度推荐词(Baidu
对于词的研究,想必每个seoer都知道,而除了比较热门的百度相关搜索词之外,百度下拉框关键词应该也是不少人研究的范围,不过大部分人都是针对下拉框词的刷量,毕竟百度下拉框关键词采集已经泛滥成灾了。
百度下拉的官方正式叫法是百度推荐词(Baidu Suggest Word),民间又称之为百度联想词或百度下拉菜单。它是百度为了方便广大网民搜索,提高输入效率而推出的一项服务。
举例,当我们在百度输入“营销”这两个字的时候,百度就从推荐词条库中检索出以“营销”这两个字打头的词条,并根据搜索量从大到小排序,组建成下拉菜单。百度下拉菜单的最大数量为10条。
百度下拉框关键词的意义:可以作为长尾词使用,作为标题使用,毕竟是用户搜索时候可以触发关键词搜索选择。不少人将下拉词直接进行引流,比如曝光品牌,引导到指定的页面,你可以进行搜集分析竞争对手的相关操作,或者自己去曝光自己的品牌,见仁见智吧!
网络上留存有不少下拉词的采集工具和源码,这里再次分享一下吧!
版本一:直接网页抓包实现下拉词的采集
版本二:使用官方接口比如:
版本三:另一个接口地址
本质上二和三都是同一个性质,大家参照着看和用吧!
扩展版本:这里有个小技巧,就是在关键词后面输入w,会出现跟拼音以w开头的一系列关键词,比如“黄山w”,会出现“黄山温泉”,”黄山玩几天“,“黄山五绝”等关键词(见上截图)。因此,当我们把a~z遍历一遍,会出现更多关键词。
这里选用版本二的接口形式,避免被和谐但是使用requests模块请求一个证书无效的网站的话会直接报错可以设置verify参数为False解决这个问题r = requests.get(url, verify=False) 但是设置verify=False会抛出一个InsecureRequestWarning的警告这样看起来很不好解决方法:
运行效果
为了方便各位老哥使用和玩耍,本渣渣特意给各位老哥打包了一下low版exe工具,以便各位大佬哥使用! exe工具获取百度网盘
以下为exe下载信息,回复可获取!
游客,如果您要查看本帖隐藏内容请回复
以上代码仅供参考学习!如果有用,麻烦给个好评,谢谢!!
百度下拉的官方正式叫法是百度推荐词(Baidu Suggest Word),民间又称之为百度联想词或百度下拉菜单。它是百度为了方便广大网民搜索,提高输入效率而推出的一项服务。
举例,当我们在百度输入“营销”这两个字的时候,百度就从推荐词条库中检索出以“营销”这两个字打头的词条,并根据搜索量从大到小排序,组建成下拉菜单。百度下拉菜单的最大数量为10条。
百度下拉框关键词的意义:可以作为长尾词使用,作为标题使用,毕竟是用户搜索时候可以触发关键词搜索选择。不少人将下拉词直接进行引流,比如曝光品牌,引导到指定的页面,你可以进行搜集分析竞争对手的相关操作,或者自己去曝光自己的品牌,见仁见智吧!
网络上留存有不少下拉词的采集工具和源码,这里再次分享一下吧!
版本一:直接网页抓包实现下拉词的采集
- <font face="微软雅黑" size="3">def get_keywords(word):
- url=f"百度网址/sugrec?pre=1&ie=utf-8&json=1&prod=pc&wd={word}"
- html=requests.get(url)
- html=html.json()
- #print(html)
- #print(html['g'])
- key_words=[]
- for key_word in html['g']:
- print(key_word['q'])
- key_words.append(key_word['q'])
- #print(key_words)
- return key_words</font>
版本二:使用官方接口比如:
- <font face="微软雅黑" size="3">def get_sug(word):
- url = '百度官方接口/su?wd=%s&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2&pbs=%%E5%%BF%%AB%%E6%%89%%8B&csor=2&pwd=%%E5%%BF%%AB%%E6%%89%%8B&cb=jQuery11020924966752020363_1498055470768&_=1498055470781' % word
- r = requests.get(url, verify=False)# 请求API接口,取消了HTTPS验证
- cont = r.content# 获取返回的内容
- res = cont[41: -2].decode('gbk')# 只取返回结果中json格式一段,并且解码为unicode
- res_json = json.loads(res)# json格式转换
- return res_json['s']# 返回关键词列表</font>
版本三:另一个接口地址
- <font face="微软雅黑" size="3">def get_word(word):
- url=f'百度另一个接口地址/su?wd={word}&sugmode=3&json=1'
- html=requests.get(url).text
- html=html.replace("window.baidu.sug(",'')
- html = html.replace(")", '')
- html = html.replace(";", '')
- #print(html)
- html = json.loads(html)
- key_words=html['s']
- #print(key_words)
- return key_words</font>
本质上二和三都是同一个性质,大家参照着看和用吧!
扩展版本:这里有个小技巧,就是在关键词后面输入w,会出现跟拼音以w开头的一系列关键词,比如“黄山w”,会出现“黄山温泉”,”黄山玩几天“,“黄山五绝”等关键词(见上截图)。因此,当我们把a~z遍历一遍,会出现更多关键词。
- <font face="微软雅黑" size="3">def get_more_word(word):
- more_word=[]
- for i in 'abcdefghijklmnopqrstuvwxyz':
- more_word.extend(get_keywords('%s%s'%(word,i)))
- print(more_word)
- print(len(more_word))
- print(len(list(set(more_word))))
- return list(set(more_word))#去重操作
- def get_more_sug(word):
- all_words = []
- for i in 'abcdefghijklmnopqrstuvwxyz':
- all_words += get_sug(word+i)# 遍历字母表 | 利用了上一个函数
- print(len(list(set(all_words))))
- return list(set(all_words))# 去重</font>
这里选用版本二的接口形式,避免被和谐但是使用requests模块请求一个证书无效的网站的话会直接报错可以设置verify参数为False解决这个问题r = requests.get(url, verify=False) 但是设置verify=False会抛出一个InsecureRequestWarning的警告这样看起来很不好解决方法:
- <font face="微软雅黑" size="3">from requests.packages.urllib3.exceptions import InsecureRequestWarning
- # 禁用安全请求警告
- requests.packages.urllib3.disable_warnings(InsecureRequestWarning)</font>
运行效果
为了方便各位老哥使用和玩耍,本渣渣特意给各位老哥打包了一下low版exe工具,以便各位大佬哥使用! exe工具获取百度网盘
以下为exe下载信息,回复可获取!
游客,如果您要查看本帖隐藏内容请回复
以上代码仅供参考学习!如果有用,麻烦给个好评,谢谢!!
好评,谢谢!!
66666,值得学习
66666,值得学习
金币+1 贡献+5
很赞哦! ()
相关文章
随机图文
-
网站全新启动,为什么域名和更新时间很重要?
从目前来看,在全新启动网站的时候,我们经常会遇到:①收录周期长②抓取频率低从某种角度来讲,我们认为这样也是正常的情况,因为优质的资源,总是会倾斜给优质数据的特征。那么,网站全新启动,为什么域名和更新时间很重要?根据以往新站SEO的经验,se -
从关键词方面寻找SEO优化的出路
一、关键字不能孤立排名。大家都知道,低指数的关键词容易优化,一般长尾关键字指数偏低。优选这类关键字一般都是通过发表文章,往往一篇高质量的文章可以带来长尾关键词排名。这里的关键,需要有内容支撑,关键字会有排名。同样,可以想象一下,假设是一个高指 -
网站收录量下降该怎么办?
网站收录量下降该怎么办?1、检查、修改robots协议Robots.txt是放在服务器下,用来告诉搜索引擎哪些页面或栏目下是不能被抓取和收录的文件。如果robots协议被修改了,那搜索引擎蜘蛛就不能正常抓取某些页面,很可能就会导致网站收录量下 -
企业外贸建站为什么Google SEO优化见效慢?
在做Google seo优化的过程中,如果你是一个正规的企业,并且自身企业的品牌形象,有一定的影响力,那么,你的SEO专员就需要被要求不能违反搜索引擎规则去优化网站。简单理解:我们就是需要利用白帽SEO技术进行整站优化,而不能选择一些黑帽策略