DSL查询语句对照

by 夏泽民 Oct 23, 2021

must 文档必须符合must中所有的条件，会影响相关性得分数组
should 文档应该匹配should子句查询的一个或多个数组
must_not 文档必须不符合must_not 中的所有条件数组
filter 过滤器，文档必须匹配该过滤条件，跟must子句的唯一区别是，filter不影响查询的score ,会缓存字典

https://elasticsearch.cn/article/13760

full-text search 全文检索

全文检索，用于对分词的字段进行搜索。会用查询字段的分词器对查询的文本进行分词生成查询。可用于短语查询、模糊查询、前缀查询、临近查询等查询场景。

match query
全文检索的标准查询，它可以对一个字段进行模糊、短语查询。 match queries 接收 text/numerics/dates, 对它们进行分词分析, 再组织成一个boolean查询。可通过operator 指定bool组合操作（or、and 默认是 or ），以及minimum_should_match 指定至少需多少个should(or)字句需满足。还可用ananlyzer指定查询用的特殊分析器。

https://www.jianshu.com/p/6c62170f8907

Lucene是如何评分的
文档得分，就是文档和查询匹配的程度，Lucene的默认评分机制是 TF/IDF（词频/逆文档频率）算法
不管什么评分机制，最基本的因子在底层是不变的
评分因子有：
文档权重（document boost），字段权重（field boost），协调因子（coord），逆文档频率（inverse document frequency），长度范数（length norm），词频（term frequency）查询范数（query norm）
比较容易理解的概念有文档权重，字段权重
其他几个需要一定的理解

协调因子（coord）：基于文档中词项命中个数的协调因子，一个文档命中了查询中的词项越多，得分越高
逆文档频率（inverse document frequency）：一个基于词项的因此，用来告诉评分公式，该词项是多么的罕见，频率越低，越罕见，这样公式可以通过此因子对罕见词项的文档进行加权
长度范数（length norm）：在索引期计算得基于词项个数的归一化因子，词项越多，因子权重越低，即Lucene更喜欢包含更少词项的字段
词频（term frequency）;基于词项的因子,词频越高，得分越高
查询范数（query norm）：基于查询的归一化因子，词项权重的平方和，让不同查询的得分可以互相比较，但通常是困难且不可行的
https://www.jianshu.com/p/b06d9bcf9b91

Category elasticsearch