抚顺地区一站式网络营销服务商

网站建设、网络推广、网站维护、城市站群

【点此咨询】

SEO如何研究排名规律

铁岭网站推广

01

搜索引擎基本概念:爬取、索引、召回、粗排、精排、重排

爬取 & 索引

搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)

召回

用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数

粗排

但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中极小的一部分,另外也没法保证质量。

所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词最相关的760个文档,展现给用户。

这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。

精排

之后就是对760篇文档排序的过程,最终的目的是让排序结果最大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。

这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:

  • 通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图

  • 文档的更新时间

  • 文档的历史点击率

  • 文档浏览后终结搜索的比例

  • 用户的网络维度特征(IP、网络类型、地域....)

  • 与搜索词文本匹配度最高的TopN条文档

  • 与搜索词潜在意图覆盖率最高的TopN条文档

  • ....太多了咱也不知道

上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。

重排

现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:

  • 你用wifi跟手机网络,搜索结果可能有所不同

  • 今天上午点击的某个结果,下午再次搜索时排名就上去了

  • 上午媒体爆料一个叫GoGo闯神秘人和迪丽热巴约会了,然后下午GoGo闯的搜索结果,就跟上午完全不同了

02

如何研究排名(一家之言)

研究收录 vs 研究排名

在16年以前,本渣觉得研究「排名」是最难的,后来搞了一堆单页站群、泛站群、资讯站群和少数几个单站,大概前后10万域名出头,发现「搞定收录」其实比「搞定排名」麻烦的多,甚至应付广告主没事总tm扣量、跑路不结算、域名被停止解析....,我觉得都比研究排名麻烦。

因为在16年以前,本渣接触的都是大站,日UV百万级的,所以收录的问题不大,一般就是某个目录收录率低,但不存在完全不收录,或收录极其缓慢的问题。

毕竟,大站参与760名排序的概率很大的,But一堆海量小站,参与召回的机会都没有。

研究大站 vs 研究小站

所以,本渣觉得,大站与小站,研究排名,是两种路线:

大站研究的是,做的词怎样上首页。

小站研究的是,做哪些词能上首页。

研究的方法有两种:正推 和 逆推

03

正推

正推就是假设一堆条件,挨个去测试,能否达到自己预期的结果。比如快排的开发,大部分都是正推的,需要大量测试

逆推就是通过分析已有的结果,找出其中共同的规律需要大量观察

仅研究百度SEO排名规律上,正推的门槛极高。

比如,很久以前,本渣抓了1000个词(同一个词根)的搜索结果,把每个词的760个结果对应的网页全弄下来,最后我记得就不到40万篇,接近50%的搜索结果都是重复的。

然后我把这批网页导入到xunsearch(一个开源的搜索引擎,并不是说这个好,而是本渣当时只会这个,还不知道有elasticsearch这个东西)并建立倒排索引。

同时我还把默认词库整理了下,让这部分行业词分词更准确。

我的想法是:

第一步:在xunsearch和baidu,同时搜索一个词,通过调整xunsearch搜索参数,调整出跟百度很接近的结果,比如top10文档大部分一样,只是顺序略有差别。

最新文章