Networkcat's Blog [ RSS ]

只索引10个网站的搜索引擎

2026-05-23

要解答技术问题,一个搜索引擎只需要收录以下这10个网站。Reddit、Stack Overflow、Stack Exchange、Hacker News、GitHub、Wikipedia、YouTube 中文社区:V2EX、NodeSeek、Hostloc 以上至少是对我来说能解决大部分技术问题的网站列表。当然,如果把列表扩充一下,可以加上各种官方文档。

在Google搜索技术问题,Reddit、Stack Exchange、Hacker News这三个网站是排名最高的,而且最有可能解决你的问题,很多人也会直接site:进行站内搜索。这些网站都有自己的站内搜索,用Google纯粹是因为它们的站内搜索做得太垃圾了。仔细想一想,Google一个能在毫秒内搜索整个互联网的强大搜索引擎,现在很多人把它作为Reddit的站内搜索引擎,曾经不是这样的,是互联网质量下降了,还是Google不行了?

网页内容的下降很大程度是Google促成的,Google掌控广告和搜索,站长为了更高的排名把网站进行过度SEO,可以参考各个英文食谱网站,不仅过度SEO,还有很多广告、弹窗,这些广告毫无例外都是AdSense。Reddit这样的UGC平台由于内容发布的便利性,本身就导致自建网站发布内容的人更少。为数不多还在老实写文章不做SEO的站长也因为流量不如以前转向各大平台,最终就导致了几乎所有高质量内容都在Reddit、Stack Exchange上。这是个恶性循环,现在的AI Overview只会加剧这种情况,访客更没理由去查看个人博客的内容,因为都被AI给总结了。但访客还是会访问Reddit等社区,因为这些社区有用户之间真实的讨论,但博客无法提供这种内容。

很多人说SEO已死,在我看来SEO本身就不应存在,它只是在搜索算法不够聪明时过渡的一个产物。如果搜索算法足够聪明,与其给我一个链接列表,不如根据我的搜索查询、浏览习惯直接重定向到那个最能解决问题的网页,不需要LLM,而是直接重定向到全互联网上最能解决我问题的网页。当然,这种搜索体验尚不存在,现在只有LLM问答式的搜索,LLM在询问较详细具体的问题时有用,但未来AI的成本还是会很高,如果无法做到和当前一个传统Google搜索相似的成本,就没办法通过广告挣钱,也不可能长期免费免登录提供给用户,这也是为什么Google搜索现在还活着的原因。

Google搜索没有死,以后很长时间都会存在,即使作为一个大型站内搜索引擎也是很好用的。但如果你要做一个"程序员搜索引擎"或现实一点,训练一个大模型,你只需要在下载这些网站的Common Crawl数据集即可覆盖绝大部分技术问答场景,因为网上大部分的高质量内容都聚集在这几个网站内。