当谈到百度收录网站的要求时,我不得不在一开始就说搜索引擎爬虫的抓取。如果搜索引擎爬虫无法抓取您的网站,或者爬虫无法识别页面内容,百度将很难收录您的网站。
一、爬虫抓取的可识别性
当爬虫抓取网页时,如果你不知道你的网页内容是什么,百度将不会收录。因此,对于爬虫来说,识别网页内容也是一个关键问题。
二、robots协议的封禁
Robots是一个TXT文件,位于网站的根目录中。您可以访问www.xxx.com/robots.txt进行打开。如果您的robots文件阻止了百度爬虫,则根本不可能收录。
因为Robots协议文件是搜索引擎和网站之间的协议文件。网站告诉搜索引擎爬虫哪些内容可以抓取,哪些内容不能抓取。所以,如果你告诉爬虫不要让它抓取了,它还怎么会去抓取呢?
三、影响网站收录的Ajax技术
JS的Ajax技术,事实上,许多SEO人员知道他们不能使用JS,但情况并非完全如此。因为爬虫抓取了网页的源代码,只要源代码中有这些内容就是可以的。但是通过JS异步加载的内容并不行。
这里,我将解释什么是异步加载,即当前网页的源代码中没有的内容。通过触发网页上的事件,JS通过Ajax技术动态加载内容。例如典型的瀑布流网页,当你鼠标滚动到最底部,然后地步就会出现更多新的内容。多数是采用这个ajax技术。
那被异步加载出来的内容爬虫是看不到的。
四、图片、导航、ALT
图像类型导航现在很少见到。但我仍然想在这里说,如果您的导航(主导航)使用图片,,在这个寸土寸金的位置上,搜索引擎根本不知道你说了什么,所以这时候需要我们使用alt标签进行设置。
alt严格来说是img标签的一个属性值,是在当图片加载失败时的提示文字。
五、网站访问速度慢
如果您的网站打开非常慢,也会在很大程度上影响收录。让我们举个例子。爬虫每天会给10分钟来抓取你的网站。访问您的网站一次需要1秒100毫秒。这完全是两个层面的结果。
六、内容质量对收录的影响
在简单解决爬虫抓取问题之后,我们应该更加关注内容质量本身。让我们从下面三个方面来解释。
1、内容的原创性
你的内容本身是不是原创的,原创内容更有机会被收录这个是众所周知的。本文不讨论怎么写原创文章,所以原创怎么搞,在这里只能说自己弄明白了,然后用自己的语言组织一下写出来。
2、内容的可读性
你的网页是不是会对用户造成一定的体验影响,例如广告遮挡主体内容。主要的内容没有在电脑首评出现。字体大小、字体颜色与背景色过于接近等。
3、内容的需求满足度
标题和内容是不是提问相符的。且真正解决了用户的需求。并不是挂羊头卖狗肉,或者语句不通顺等行为。
如上内容解决了,基本上就符合了百度收录网站的标准了。