新站为什么要先做收录?(收录新站慢要多久)

一个网站需要的文章页面数量通常不是几万,而是数百万。如何在短时间内将网站中的文章数量翻倍或倍增?一种方法是增加内容,第二种方法是提高网站在搜索引擎中的“收录率”。

1、 添加内容

常用的方法有三种:关键字词库构建、标签页生成、UGC页生成。

2、 关键词词库的构建

通常,在规划网站时,页面是根据产品的SKU生成的。关键词词库的方法是挖掘行业中所有的常用词、产品词、竞争词和品牌词,然后根据这些词生成网页。以58城市为例,在网络建设之初,将区域细化到县,按照乘法原理:县单位×常用词×小字段分类×大字段分类生成页面;公众点评将区域细化到某一条路或某个pol,所以按照乘法原理,过亿的路可以产生上百亿的页面。

淘宝上有上亿个关键词词库,而返利平台项目上却有上亿个关键词词库。

“SEO分析师”挖字并不难。难点在于如何对生成的聚合页面进行“标记”,使其不被搜索引擎视为“垃圾页面”,保证页面的原创性和用户体验。

3、 标记页生成

关键词词库建设就是以关键词为核心,快速生成数以亿计的网页。标签聚合页面是以关键字索引为核心,快速生成上千万个标签页面。

标签页可以理解为主题页和列表页,但对于标签页的权重,从投票原则来看,标签页有多个内页进行投票,权重应该高于文章页,这几乎是所有门户都做过的。从用户体验的角度来看,标签页有时远不如文章页有价值。不久前,抖音严厉打击垃圾网页,其中标签网页是主打。

很多门户网站,首先是批量收录垃圾页面,甚至不复制。它们直接堆积在网站数据库中,然后根据关键字生成标签页。尽管文章对于搜索引擎来说是垃圾,但是由文章标题或meta生成的标签页对于搜索引擎来说是原始的。虽然搜索引擎对标签页的权重越来越低,但具有高相关性和良好用户体验的标签页仍然具有较高的投票能力。

标签页生成的一步是单词扩展,这与关键字词库的构建是一样的。区别在于你需要制作不同的主题模板,而主页必须给你一个入口。

以某保险网站为例,首先做一个标签,即进入页面。

(1) 支持关键字重复数据消除功能。将关键字导入后台关键字库时,再次导入该关键字是无效的,即新导入的重复关键字不生成ID或新页。

(2) 每次可以批量导入1-5000个关键字,并为导入的每个新的非重复关键字生成一个单独的ID

(3) 后台会提示哪些导入的关键字重复,并支持删除重复关键字的功能。

(4) 后台导入关键字后,点击〖生成页面〗按钮,可以在后台预览网站数据库中生成的页面信息。

(5) 背景可以检测不同关键字生成结果页时的内容重复性。如果多个关键字之间有70%以上的内容重复,后台会有相应的提示,ID重复的关键字不会生成页面和URL。


(6) 后台需要设置超级管理员和普通用户的用户权限级别。普通用户可以上传关键字并预览生成的页面,查询关键字ID信息功能,但他们没有权限发布在线关键字页面;超级管理员拥有普通用户的所有权限,也有权限点击发布在线搜索关键字。

(7) 导入的关键字必须包含两个中文字符或两个英文字符才能生成搜索聚合页。单个汉字或英文字母不支持导入关键字库和生成页面的限定。

(8) 支持自动或手动向关键字生成的聚合页面添加标签。这些标记用于以后使用相同的标记调用信息文章、评论、主题和其他聚合页面。

(9) 支持关键字聚合页面的单次、批量“添加、删除、修改”功能。

(10) 支持在搜索聚合页的关键字库中,将关键字全部或部分前导的功能。

注:如果你的网站CMS没有这些功能,这是可以的。你可以根据这个想法调整和优化自己。您也可以查看我们锦绣大地SEO培训基地的VIP课程,了解如何使用它。

(1) 每页最多可生成40篇文章,最少可生成10篇文章;不足10篇不生成URL和页面

(2) 每个生成的关键字聚合页面之间的内容重复性不能大于70%,如果大于70%,则后面导入的关键字不会生成URL和页面。

(3) 每个关键字生成的文章标题必须包含多个相同的词根(词根字符数大于或等于2,如果数据库中有中英文分词词根)。此时,程序员还需要检查导入关键字后生成的文章结果的质量。

(4) 预生成的关键字聚合页面必须有专人预览和检查文章结果的匹配程度;如果生成的结果不够准确,用户体验不好,很容易造成垃圾页面,导致搜索引擎的功耗降低。

(5) 搜索关键词聚合页面要求代码最精炼、最简化,没有其他渠道或活动的广告、JS控件、交互控件和框架内容,转换和监控代码不超过两个,追求的打开速度和用户体验。

接下来,它必须遵循关键词聚合页面的规则,如页面聚合规则、标签规则、页面内容板块对应的逻辑规则、头部导航、面包屑、信息页面规则、相关主题规则、URL规则、标题规则、元规则等。关于内容规则,锦绣大地SEO培训基地有详细的介绍视频介绍。

5、 URL优化

URL优化收录很多方面,其中有10个重要方面。根据重要性,顺序如下。

死循环:反映在列表页a点击到B,然后从B点击到a,结果a第二次点击返回的URL与***次点击返回的URL完全不同。这是收录忌讳,因为一旦蜘蛛进入死循环,它总会落入其中,爬不出来。

死链接:想象一个蜘蛛从网页a爬到网页B,然后爬到网页C。结果,B不能被打开,所以C不能被收录在内。另一种情况是,主体已被删除,但URL仍然存在。这种页面可以称为“活链接和死链接”。用户体验很差,建议批量301。

重复页面:就像两个豌豆,网址是不同的。

(1)层次:在建立网站时,你喜欢遵循严格的逻辑:“首页-大类首页-频道首页-产品词首页-主题页-文章页”。一般来说,你可以做6级以上。搜索引擎会根据每个网站的权重和更新情况给蜘蛛爬行的时间和次数,如果级别太多,蜘蛛爬到第五级时很可能无法爬到第六级,而第六级往往有大量的“干货”页面。

因此,许多网站在设置URL时只有两层结构:主页和其他页面(所有页面都放在二级目录下)和URL规则

(2)翻页规则:主要用于列表页。当翻页超过10000页时,建议以50>100或更大的间隔来制定底部翻页规则。例如,可以将底部规则设置为“1、2、3、4、5、10、20、30、40、50”,依此类推。当蜘蛛爬到第五页时,底部显示变为“6,7,8,9,15,25,35,45,55”,这样蜘蛛可以快速完成所有的翻页。

蜘蛛陷阱:302跳转>flash跳转、flash页面>sessionid、强制使用cookie、需要登录才能填写验证码等。

(3)不允许/

 网站地图:XML网站地图,向抖音提交的网站地图

6、 蜘蛛入口

有些网站可以每天更新一定数量的原创文章。XML网站地图或服务器日志显示spider每天出现的时间非常短,或者新的主题页/文章页可以在搜索引擎中获得很好的排名。因此,在主页上添加条目是不错的方法。

虽然XML网站地图会使网页被收录,但是收录和可以在搜索引擎中用站点命令检索是两件事,检索到有排名是另一件事。一个网站,因为所有的页面都投票给首页,所以首页的权重很高,而首页给出入口,这意味着网站权重的页面投票给“入口页面”,入口页面的权重瞬间增加;

另外,蜘蛛一般会从主页爬到其他级别的页面,把主页爬到入口,这意味着只要蜘蛛访问网站,入口页面就会被收录。

7、 代码优化

蜘蛛到每个网站,在一段时间内,蜘蛛的数量大致是固定的。

同时,爬一个10000行的网页相当于爬10个1000行的网页。所以,从理论上讲,如果你有10000行的网页代码,你可以把它减少到1000行以下,那么,在同样的权重下,蜘蛛爬行的网站应该高出10倍。

在上万个页面内,代码优化的效果非常慢。对于千千万万的网站来说,代码优化的效果,无论是搜索引擎的数量还是新UV,都会起到难以置信的效果。

蜘蛛访问网站的时间是有限的。如果蜘蛛需要三到五倍甚至十倍于正常速度的速度来抓取一个页面,那么它们可以抓取的页面数量肯定是有限的。web服务器的问题之一是用户体验非常差。对于如今“用户体验优先”的搜索引擎来说,不仅会受到影响,其排名也会直线下降。