如何对文档项目进行搜索引擎优化?

本文解释了如何优化文档以出现在搜索结果中, 最终增加文档型网站的流量。

当您优化文档以使其对搜索引擎蜘蛛/爬虫更加友好时, 重要的是要记住,你的最终目标是为您的用户制作更多可发现的文档。

通过我们介绍的 SEO 最佳实践, 您可以确保当用户在搜索引擎中输入问题时, 他们可以从搜索结果中的文档获取答案。

SEO 基础知识

像 Google 和 Bing 这样的搜索引擎会通过互联网上的链接进行爬取,试图理解并构建各种网页和网站内容的索引。这被称为“爬取(crawling)”或“索引(indexing)”。当用户向搜索引擎发送查询时,搜索引擎会使用多种因素评估该索引,并尝试返回最有可能回答该用户问题的结果。

搜索引擎如何根据用户的查询对网站进行“排名(rank)”是其秘诀之一。虽然一些搜索引擎会公布其算法的基本原理(请参阅 Google 公布的 PageRank 详细信息),但很少有搜索引擎会提供所有详细信息,以防止用户利用排名靠前的低价值内容来操纵排名。

Google 和 Bing 都发布了一套指南,以帮助搜索引擎更轻松地理解网站并提高排名。总结一下适用于文档类型网站 SEO 的一些最重要的方面,您的网站应该:

  • 在 HTML <title> 标签中使用描述性强且准确的标题。

  • 确保您的 URL 具有描述性。它们会显示在搜索结果中。

  • 确保您的网页中确实包含了读者用来找到您网站的关键词。

  • 避免使用内容贫乏或原创内容极少的网页。

  • 避免使用试图提高搜索引擎排名但实际上不改进内容的策略。

  • Google 特别警告不要使用自动生成的内容,尽管这主要针对关键词堆砌和低价值内容。从源代码生成的高质量文档(例如自动生成的 API 文档)似乎可以接受。

虽然 Google 和 Bing 都将网站性能作为影响搜索结果排名的重要因素,但本指南不会对此进行详细讨论。大多数使用 Sphinx 或 Read the Docs 的技术文档都会生成静态 HTML,其性能通常相对于互联网上的大多数文档而言都相当不错。

文档类型网站 SEO 的最佳实践

一旦爬虫程序或蜘蛛找到您的网站,它就会跟踪链接和重定向,尝试查找您网站上的所有页面。虽然有一些方法可以引导搜索引擎进行抓取,例如使用站点地图或 robots.txt 文件(我们稍后会讨论),但最重要的是确保蜘蛛程序能够跟踪您网站上的链接并到达所有页面。

避免未链接(unlinked)的页面

在构建文档时,您应该确保页面没有未链接的页面,这意味着没有其他页面或导航链接到它们。

搜索引擎爬虫程序不会发现您网站上未从其他地方链接的页面。

MkDocs 会自动将所有 .md 文件 💯️ 地添加到主导航栏中。这确保所有文件默认均是可达的,但您也可以通过各种配置来查看未链接的文件。如果您想扫描文档中未引用的文件和图片,可以使用 mkdocs-unused-files 之类的插件。

避免无法抓取的内容

虽然这通常不是文档型网站的问题,但请尽量避免搜索引擎无法抓取的内容。这包括隐藏在图片或视频中的内容,因为抓取工具可能无法识别这些内容。例如,如果您的文档中包含视频,请确保该页面的其余部分能够描述视频的内容。

使用图片时,请务必设置图片替代文本(alt text)或为图片添加标题(caption)。

Markdown 语法定义了图片的 alt 文本:

1
![图片 alt 文本](https://dummyimage.com/600x400/){ width="300" }

虽然 HTML 支持图片和标题,但 Markdown 和 MkDocs 并没有内置此功能。您可以使用 Markdown 扩展程序(例如 md-in-html)来添加包含图片所需的 HTML 结构:

1
2
3
4
<figure markdown>
![图片 alt 文本](https://dummyimage.com/600x400/){ width="300" }
<figcaption>图片标题</figcaption>
</figure>

重定向

重定向会告知搜索引擎内容已经改变位置。例如,如果本指南从 guides/technical-docs-seo-guide.html 移至 guides/sphinx-seo-guide.html,那么在一段时间内,搜索引擎仍会将旧网址保留在索引中并向用户显示。因此,更新文档中的链接以及进行重定向至关重要。如果主机名从 docs.readthedocs.io 移至 docs.readthedocs.org,这一点就更加重要了!

规范 URL(Canonical URL)

当非常相似的内容托管在多个 URL 上时,设置规范 URL 非常重要。即使您在互联网上有多个版本(例如,翻译不完整或已弃用版本),规范 URL 也会告诉搜索引擎您的文档的原始版本在哪里。

使用 robots.txt 文件

robots.txt 文件可供爬虫程序读取,位于您网站的根目录下(例如 https://pengtech.net/robots.txt)。 它会告知搜索引擎哪些页面可以抓取或不可以抓取,并允许您控制搜索引擎抓取您网站的方式。例如,您可能希望请求搜索引擎忽略文档中不受支持的版本,同时保留这些文档以备用户需要。

有关更多详细信息,请参阅 Google 的 robots.txt 文档

使用 sitemap.xml 文件

站点地图是一个可供爬虫程序读取的文件,其中包含您网站上的页面和其他文件的列表,以及一些关于它们的元数据或关系(例如 https://docs.readthedocs.io/sitemap.xml)。一份好的站点地图应该提供诸如页面或文件的更新频率,以及页面的其他语言版本等信息。

请参阅 Google 文档 - 如何构建站点地图

使用 meta 标签

使用元描述可以自定义页面在搜索引擎结果页中的显示方式。

通常,如果未提供元描述,搜索引擎会使用页面的前几句话。

搜索引擎优化权威 Moz.com 对元描述提出了以下建议:

  • 元描述应包含与页面最相关的内容。搜索者应该通过描述了解他们是否找到了正确的页面。

  • 元描述的长度应在 150-300 个字符之间,在某些情况下可能会被缩短至 150 个字符左右。

  • 元描述用于显示,但不用于排名。

如果搜索引擎认为页面中的某个片段更符合描述要求,它们并不总是会使用您自定义的元描述。

测量、迭代和改进

搜索引擎可以提供有用的数据,您可以使用这些数据来提高文档在搜索引擎上的排名。

搜索引擎反馈

Google Search ConsoleBing Webmaster Tools 是网站站长获取其网站(或我们这里指的文档)抓取反馈的工具。它们提供的一些最有价值的反馈包括:

  • Google 和 Bing 会显示之前已编入索引但现在显示 404(或更罕见的 500 或其他状态码)的页面。这些页面会在索引中保留一段时间,但最终会被移除。这是一个创建重定向的好机会。

  • 这些工具会显示文档中存在的任何抓取问题。

  • Search Console 和网站站长工具会突出显示发现的安全问题,或者 Google 或 Bing 是否因认为您的网站包含垃圾内容而对其采取了相应措施。

分析工具

像 Google Analytics 这样的工具,可以为您提供用户用来查找文档、热门页面的搜索词以及许多其他有用数据的反馈。

搜索词反馈可用于帮助您针对特定关键词或相关关键词优化内容。对于 Sphinx 文档或其他具有自身搜索功能的技术文档,分析工具还可以告诉您用户在网站内搜索的关键词。

了解热门页面可以帮助您确定 SEO 工作的优先级。优化已经很受欢迎的页面可以带来显著的效果。

外部资源

以下是一些额外的资源,可帮助您了解有关 SEO 的更多信息 并在搜索引擎中排名更高。

参考文档

Best practices for documentation SEO

如何对文档项目进行搜索引擎优化?

https://pengtech.net/seo/seo-for-document-projects.html

作者

鹏叔

发布于

2025-09-05

更新于

2025-09-06

许可协议

评论