谷歌是大多数人搜索的地方

[email protected] · Post by **[email protected]** » Wed Dec 04, 2024 6:57 am

为什么简而言之。

如果我们包括 Google 图片、Google 地图和 YouTube（Google 旗下），超过 90% 的搜索发生在 Google 上，这大约是 Bing 和 Yahoo 搜索总和的 20 倍。

抓取 – 搜索引擎可以找到您的页面吗？

正如您最近了解到的，让您的网站被抓取并编入索引是出现在美国消费者手机号码列表 SERP中的先决条件。如果您已经有一个网站，最好首先查看有多少页面被索引。

这将使您深入了解 Google 是否正在扫描并查找您想要查看的所有页面和您不想看到的页面。

检查索引页面的一种方法是使用“site:yourdomain.com”，这是一种高级搜索引擎。转到 Google 并在搜索栏中输入“site:yourdomain.com”。

这将返回 Google 为指定网站编制索引的结果：

Google 显示结果的数量并不准确，但它使我们能够清楚地了解哪些页面在您的网站上被编入索引以及它们当前在搜索结果中的显示方式。

要获得更准确的结果，请使用Google Search Console中的索引覆盖率报告。如果您尚未注册，可以使用 Google Search Console 帐户免费注册。

使用此工具，您可以发布网站的站点地图，并查看有多少提交的页面已添加到 Google 索引等。

如果您在搜索结果中没有看到自己，可能有以下几种原因：

您的网站是新的，尚未固定
您的网站未链接到任何外部网站
您的网站导航使机器人难以有效爬行
您的网站包含一些称为爬虫指令的基本代码，这些代码会阻止搜索引擎
您的网站因垃圾邮件策略而受到 Google 的处罚。

告诉搜索引擎如何抓取您的网站
如果您使用过 Google Search Console 或“site: domain.com ”高级搜索运算符，并发现某些重要页面未编入索引和/或某些非重要页面被错误编入索引。

您可以进行多项优化，以更好地引导 Googlebot 抓取您的网络内容

大多数人认为 Google 可以找到他们的重要页面，但您应该记住，可能有些页面您不希望 Googlebot 找到。

这可能包括内容贫乏的旧 URL、重复地址（例如，电子商务排序和过滤器设置）、特殊促销代码页或测试页等。

要让 Googlebot 从您网站的某些页面和部分运行，请使用robots.txt。

机器人.txt
Robots.txt 文件托管在服务器上（例如 Yourdomain.com/robots.txt），您可以告诉它可以扫描网站的哪些部分，不能扫描哪些部分。

还可以使用特定的 robots.txt 指令控制他们在您的网站上抓取的速度。

Googlebot 如何处理 robots.txt 文件

如果 Googlebot 找不到该网站的 robots.txt 文件，它将继续扫描该网站
如果 Googlebot 找到某个网站的 robots.txt 文件，它通常会完成请求并继续扫描该网站
如果 Googlebot 在访问网站的 robots.txt 文件时检测到错误且无法确定该文件是否存在，则不会扫描该网站

优化扫描预算
抓取预算是 Googlebot 在离开您的网站之前抓取的平均网址数量，因此抓取预算优化经过优化，可确保 Googlebot 不会浪费时间浏览不重要的网页，而是花时间抓取重要的网页。

对于拥有数万个 URL 的大型网站来说，抓取预算最为重要，但阻止抓取访问我们不关心的内容绝不是一个坏主意。

只需确保您不会阻止爬虫访问已添加其他指令（例如规范或noindex标记）的页面。如果 Googlebot 被阻止访问任何页面，它将无法看到该页面上的说明。

并非所有网络机器人都遵循 robots.txt。怀有恶意的人（例如，电子邮件地址抓取者）会构建不遵循协议的机器人。

事实上，一些不良行为者使用 robots.txt 文件来确定您放置私人内容的位置。

最好在这些页面上使用 NoIndex 并将它们隐藏在登录表单后面，而不是将它们放在 robots.txt 文件中。

您可以在我们学习中心的 robots.txt 部分了解更多相关信息。

在 GSC 中定义 URL 参数
某些网站（最常见的是电子商务）将相同的内容放在多个不同的 URL 上，并向 URL 添加某些参数。