如何使用单个Elastic搜索查询进行重复数据删除和执行聚合?

我有一个索引,其中存储了员工的详细信息数据。

我有每个员工的反馈字段为整数值(0-10)。

我想得到反馈的数量,反馈的平均评分和每个员工的反馈的平均评分。

这里的问题是,我有两个或多个相同的文档。

所以我在一个ES索引中有两个或多个相同的文件(重复)(使用雇员ID和一个反馈标识符,我们可以区分记录)。

我想对一些只有一个文档的字段进行avg和count,只用ES查询。

PS:我们无法删除索引中的重复数据。

解决方案:

数据:我有一个ID为1的员工,他的反馈字段为整数(0-10),我想得到反馈的数量、反馈的平均评分和平均评分。

"hits" : [
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "r_QurHEBvLUX24hJph0B",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 1,
          "feedback" : 2
        }
      },
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "sPQurHEBvLUX24hJ0R3x",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 1,
          "feedback" : 2
        }
      },
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "sfQurHEBvLUX24hJ5h16",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 2,
          "feedback" : 6
        }
      }
    ]

我取了一个ID为1的员工和三个反馈(两个重复的标识符Id1和一个标识符Id2)。总和是10,使用不同的和是8。

查询。

我正在使用 脚本式度量汇总 以创建一个包含唯一反馈IdentifierI和反馈值的字典。

  1. “init_script”。

在任何文件集合之前执行。允许集合设置任何初始状态。

已声明一个哈希特事务”

  1. “map_script”

每收集一份文档执行一次 循环浏览所有文档,并将唯一的标识符id和相应的反馈值添加到字典中。

  1. combine_script

文件收集完成后,每个碎片执行一次。

返回所有碎片的字典

  1. 减少脚本

在所有碎片返回结果后,在协调节点上执行一次。

再一次检查从每个碎片返回的所有字典,并创建一个唯一的字典。在字典中循环,以获得反馈的总和或计数。

{
  "size": 0,
  "aggs": {
    "employee": {
      "terms": {
        "field": "empId",
        "size": 10000
      },
      "aggs": {
        "distinct_sum_feedback": {
          "scripted_metric": {
            "init_script": "state.transactions =new Hashtable();",
            "map_script": "if(state.transactions.get(doc.feedbackId)==null){state.transactions.put(doc.feedbackId, doc.feedback.value)}",
            "combine_script": "return state.transactions",
            "reduce_script": "def sum=0;def feedbacks=new Hashtable();for(a in states){for(entry in a.entrySet()){if(feedbacks.get(entry.getKey())==null){feedbacks.put(entry.getKey(),entry.getValue());}}}for(entry in feedbacks.entrySet()){sum+=entry.getValue();}    return sum;"
          }
        },
        "distinct_count_feedback": {
          "cardinality": {
            "field": "feedbackId"
          }
        },
        "distinct_avg_feedback": {
          "bucket_script": {
            "buckets_path": {
              "sum": "distinct_sum_feedback.value",
              "count": "distinct_count_feedback.value"
            },
            "script": "params.sum/params.count"
          }
        }
      }
    },
    "sum_feedback": {
      "sum_bucket": {
        "buckets_path": "employee>distinct_sum_feedback.value"
      }
    },
    "count_feedback": {
      "sum_bucket": {
        "buckets_path": "employee>distinct_count_feedback.value"
      }
    }
  }
}

结果:用户1的单独计数:2用户1的独立计数:2

用户1的总和:8(重复的为10)

"aggregations" : {
    "employee" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 1,
          "doc_count" : 3,
          "distinct_count_feedback" : {
            "value" : 2
          },
          "distinct_sum_feedback" : {
            "value" : 8
          },
          "distinct_avg_feedback" : {
            "value" : 4.0
          }
        },
        {
          "key" : 2,
          "doc_count" : 1,
          "distinct_count_feedback" : {
            "value" : 1
          },
          "distinct_sum_feedback" : {
            "value" : 6
          },
          "distinct_avg_feedback" : {
            "value" : 6.0
          }
        }
      ]
    },
    "sum_feedback" : {
      "value" : 14.0
    },
    "count_feedback" : {
      "value" : 3.0
    }
  }

给TA打赏
共{{data.count}}人
人已打赏
未分类

HTMLCSS TableRows

2022-9-9 5:19:19

未分类

初始化多页用户表单每一页的所有控件。

2022-9-9 5:19:21

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索