22-0001 淘宝店铺搜索界面

时间:2022-03-15 14:50:35 父亲起名网

url1='https://shopsearch.taobao.com/search?q=%E6%89%8B%E5%8A%9E&js=1&initiative_id=staobaoz_20200511&ie=utf8';
url2='https://shopsearch.taobao.com/search?q=%E6%89%8B%E5%8A%9E&js=1&initiative_id=staobaoz_20200511&ie=utf8&s=20';

可以看到末尾的多了 ‘s=20’ ,可以通过这个链接,每次获取网页源码淘宝店铺名字下面的图像,从中进行提取。

备注:上面的方法不可行,因为需要进行登录,哈哈~

因此,需要在控制台输入JS代码淘宝店铺名字下面的图像,将每次的结果进行复制

2.4 控制台

有这么一项:

url='https://tmatch.simba.taobao.com/?name=tbuad&o=j&count=20&p4p=tbcc_p4p_c2015_8_130026_15891809314781589180932117&pid=430409_1006&keyword=%CA%D6%B0%EC&offset=20';
name='tbuad';
count=20;
p4p='tbcc_p4p_c2015_8_130026_15891809314781589180932117';
pid='430409_1006';
keyword='%CA%D6%B0%EC';
offset=20;

经过了一番测试,得到如下结果:

类似于一个接口

其中的内容如下:

备注:果不其然,只有20条数据。

单拎出来一条:

SELL:卖出的数目
SELLERID:店铺的sellerid
GRADE:类似于热度,数字越大、热度越高
ISMALL:不知道
SHOPNAME:店铺的名字
SHOPID:店铺的id

备注:可以使用python批量获取N条数据,将其排列得到热度较高的店铺。python代码就不贴出来了 。

3.总结

这才不过是第一篇,以后指定会遇到各种奇奇怪怪的网站~

其中类似于url二次编码的问题,是值得思考与探讨的~

//这两个是如何表示同一种内容的?
//使用Javascript encodeURI() 函数,用于完整的URL编码。',
str1='%E6%89%8B%E5%8A%9E';//encodeURI
//使用Javascript encodeURIComponent() 函数,用于拼接URL的参数。
str2='%CA%D6%B0%EC';//encodeURIComponent

关于图片下载的部分内容:

链接:

密码:8pzd

备注:生成的文件夹与该.exe文件在同一个路径下!