18720358503 在线客服 人才招聘 返回顶部
企业动态 技术分享 行业动态

百度搜索lee:检索模块数据库索引系统软件简述

2021-04-20分享 "> 对不起,没有下一图集了!">

百度搜索lee:检索模块数据库索引系统软件简述(1)


短视頻,自新闻媒体,达人种草1站服务

从之前8月份百度搜索站长服务平台lee公布有关检索模块抓获得信任息后2个月早已以往,这次lee再次公布了检索模块数据库索引系统软件的信息内容。无论如何,木木SEO觉得百度搜索官方的公示大家還是要掌握和剖析的。下面是百度搜索官方公示:

大家都知道,检索模块的关键工作中全过程包含:抓取、储存、网页页面剖析、数据库索引、查找等几个关键全过程。以往几周给大伙儿详细介绍了抓取有关的扼要全过程。今日扼要详细介绍1下数据库索引系统软件,以亿为企业的网页页面库中搜索特殊的一些重要词犹如海洋里边捞针,或许1定的時间内能够进行搜索,可是客户等不起,从客户体验角度大家务必在毫秒级別给予客户令人满意的結果,不然客户只能外流。如何才可以做到这类规定呢?

假如能了解客户搜索的重要词(query切词后)都出現在哪儿些网页页面中,那末客户查找的解决全过程便可以想像为包括了query中切词后不一样一部分的网页页面结合求交的全过程,而查找即变为了网页页面名字之间的较为、求交。这样,在毫秒内以亿为企业的查找变成了将会。这便是一般所说的倒排数据库索引及求交查找的全过程。以下为创建倒排数据库索引的基础全过程:

 

(1)网页页面剖析的全过程具体上是将初始网页页面的不一样一部分开展鉴别并标识,比如:title、keywords、content、link、anchor、评价、别的非关键地区这些;

(2)分词的全过程具体上包含了切词、分词、同义词变换、同义词更换这些,以对某网页页面title分词为例,获得的将是这样的数据信息:term文字、termId、词类、词性这些;

(3)以前的提前准备工作中进行后,接下来就是创建倒排数据库索引,产生{term doc},能够粗略地的了解为以下,为何是【term- doc】,而并不是立即运用【doc- term】呢?

 

上述就是数据库索引系统软件中的倒排数据库索引全过程,是检索模块完成毫秒级查找十分关键的1个阶段。

好了,以上就百度搜索公布的全文了,自然是很简易的,想掌握更多能够看木木SEO的《不懂检索模块基本原理便是在裸奔》,我想大伙儿在里边能够掌握得更详尽。此外上面文章内容里边的几个词将会大伙儿没理解,简易的说1下:term便是单词文字,即重要词;termID便是单词标志。

文章内容编写自:木木SEOblog


"> 对不起,没有下一图集了!">
在线咨询