搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。有了基本的认知，就开始深入挖掘搜索引擎的算法，逆向推导出SEO优化的手法：1、爬虫：互联量的数据是千亿级别的巨型堡垒。

搜索引擎就需要抓取回来，计算后提供给索引者，抓取数据就是爬虫的工作和行为。在日志中、百度站长工具可以查看爬虫的工作情况。爬虫的工作原理：爬虫工作形态有广度优先和深度优先策略。

1、由百度的调度服务器多线程派出爬虫，顺着ip段，进行随机进入ip，访问和抓取信息。

2、由外部链接，通过点击激活，爬虫访问到指定的目标网站。

爬虫就和人的点击，访问行为是一样的，而且爬虫在网页中是记录用户的点击和访问行为的。作为后期计算的元素。爬虫的数量：百度同时放出的有九类爬虫，图片，新闻、视频……各式各样的抓取爬虫。爬虫抓取的是URL，也就是网页的链接地址。抓取后的计算：爬虫给搜索抓取回来n多的URL。下载后，存放在数据库，搜索会在数据库建立槽位，就是存放每个网站的数据，槽位是动态的，会更具数据量的多少自动扩张或者缩小。如何计算：这些数据，搜索会一个网页一个网页的计算。

首先是中文分词，形成词条序列。下一步是删除。

1、超高频无关词语、2、连接词语、3、停用词。

删除后，由词条à词项。实际经过删除，预留剩下的可用于计算的词项没多少了。关键词的诞生：由词项和标题关键词进行计算，布尔模型、向量空间模型)计算相关性，取值更高的，成为该页的索引词。

也就是通过这个词语可以检索到该页。学习到现在，你明白了，一个页面关键词产生的过程和原理。搜索倒排结果的计算：你想要在搜索结果中获得排名，还的继续学习过程。搜索步，会把网页的关键词和搜索的数据库的分类进行计算。

TAG：大神新手 SEO

网站推广如何做好文章更新

新站为什么不收录？快速收录的方法

返回列表