搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。有了基本的认知,就开始深入挖掘搜索引擎的算法,逆向推导出SEO优化的手法:1、爬虫:互联量的数据是千亿级别的巨型堡垒。
搜索引擎就需要抓取回来,计算后提供给索引者,抓取数据就是爬虫的工作和行为。在日志中、百度站长工具可以查看爬虫的工作情况。爬虫的工作原理:爬虫工作形态有广度优先和深度优先策略。
1、由百度的调度服务器多线程派出爬虫,顺着ip段,进行随机进入ip,访问和抓取信息。
2、由外部链接,通过点击激活,爬虫访问到指定的目标网站。
爬虫就和人的点击,访问行为是一样的,而且爬虫在网页中是记录用户的点击和访问行为的。作为 后期计算的元素。爬虫的数量:百度同时放出的有九类爬虫,图片,新闻、视频……各式各样的抓取爬虫。爬虫抓取的是URL,也就是网页的链接地址。抓取后的计算:爬虫给搜索抓取回来n多的URL。下载后,存放在数据库,搜索会在数据库建立槽位,就是存放每个网站的数据,槽位是动态的,会更具数据量的多少自动扩张或者缩小。如何计算:这些数据,搜索会一个网页一个网页的计算。
首先是中文分词,形成词条序列。下一步是删除。
1、超高频无关词语、2、连接词语、3、停用词。
删除后,由词条à词项。实际经过删除,预留剩下的可用于计算的词项没多少了。关键词的诞生:由词项和标题关键词进行计算,布尔模型、向量空间模型)计算相关性,取值更高的,成为该页的索引词。
也就是通过这个词语可以检索到该页。学习到现在,你明白了,一个页面关键词产生的过程和原理。搜索倒排结果的计算:你想要在搜索结果中获得排名,还的继续学习过程。搜索步,会把网页的关键词和搜索的数据库的分类进行计算。