谷歌是如何找到并索引你的内容的?
Google 自己出了一集视频叫 《How Search Works》
谷歌会通过4个主要的方法来查找并索引你的内容
小提示. 由于谷歌内部算法复杂,因此下面的流程在一定程度上做了简化。
步骤 1. 发现
发现是指是谷歌得知你网站存在的过程。 谷歌从站点地图中找到大多数网站和页面,或者从已知页面中找到反向链接。
步骤 2. 抓取
抓取是指 Googlebot 程序(蜘蛛)访问并下载你的页面的过程。
步骤 3. 处理
处理是指从抓取的页面中提取关键信息并准备索引的过程。
步骤 4. 索引
索引是指将已抓取的页面中的已处理过的信息添加到搜索索引的大型数据库中。这是一个由数万亿个网页组成的数字图书馆,谷歌就是从中提取搜索结果的。
为何提交很重要?
上面四个步骤中的每个步骤都是按顺序进行的。你能够做的就是将你的网站提交给谷歌,这样你就可以加快流程的第一部分:发现。
就像旅行一样,越早出发,就能越早到达目的地。在这种情况下就是:建立索引。
但是还有其他一些原因使得提交站点地图很重要。
1. 它告诉谷歌哪些页面很重要
站点地图并不总是包含你网站上的每个页面。它们仅会列出重要得页面,而排除不重要或重复的页面。这有助于解决由于重复的内容而导致错误的页面版本被索引等问题。
2. 它告诉谷歌有关新页面的信息
许多 CMS 会在你的站点地图中自动添加新页面,有些会自动 Ping 通知谷歌。这样可以节省必须手动提交每个新页面的时间。
3. 它会告诉谷歌有关孤岛页面的信息
孤岛页面是指没有网站上其他页面的内部链接的页面。除非它们具有来自其他网站上已知页面的反向链接,否则谷歌不会通过抓取发现这些页面得。提交站点地图可以一定程度上解决此问题,因为孤岛页面通常会包含在站点地图中——大多CMS的页面都会包含在内。
提交网址
步骤如下:
- 进入:Google Search Confole, 选择 添加资源。
- Google 会对输入的网址所有权进行验证。支持:HTML 文件、Google Analytics、域名提供商 等验证方式,任选一种,按照提示步骤进行操作即可。
- 网站提交完成,大概几天时间,GOOGLE就会收录您的网站,并可在GOOGLE网站管理员工具查看您的网站关键词在GOOGLE中的排名结果,搜索次数等。
SEO技巧
1. 网站结构层次不要太深
2. 页面标题要准确
<title>
作用是告诉用户和搜索引擎特定网页的主题是什么。网站上的每个页面最好具有唯一专用标题,这有助于搜索引擎了解该页面与您网站上其他页面的区别。
1
<title>小智晖的博客 | VXiaoZhi Blog</title>
3. 准确的提炼 “description”
1
<meta name="description" content="这里是 小智晖 的个人博客,与你一起发现更大的世界 | 要做一个有 swag 的程序员">
4. 优化您的图片,使用“alt”属性
5. 重要内容不要用动态页面(即JS输出)
6. 明智地使用链接:
对于站内链接,要加 “title” 属性加以说明
1
<a href="/feature.shtml" title="功能" class="nav-link"></a>
对于而外部链接,通常都需要加上 rel=”nofollow” 属性,告诉 “蜘蛛” 不要往下爬了。因为一旦“蜘蛛”爬了外部链接之后,就不会再回来了!
1
<a href="https://www.xxx.com/xx.stml" rel="nofollow">xxx</a>
禁止抓取
🈶两种方式来禁止 Google 爬虫来抓取网站内容:
1. robot.txt
Robots.txt 是一个文本文件,它告诉谷歌可以抓取和不能抓取哪些 URL。
例如,下面的 robots.txt 文件阻止了谷歌抓取网站上的所有页面:
1
2
3
User-agent: Googlebot
Disallow: /
2. 将重要页面设置了不索引
如果你的页面上有 meta robots 标记或是 x‑robots-header,并在 content 属性中带有“ noindex”,那么谷歌就不会对该页面进行索引。