MyBatis 中 List 重复数据处理全攻略

MyBatis 中 List 重复数据处理全攻略

编码文章call10242025-08-31 20:16:3117A⁺A^-

在互联网软件开发领域，使用 MyBatis 进行数据库操作是极为常见的。而在实际的项目开发过程中，我们常常会遇到这样一个棘手的问题：从数据库查询出来的数据存储在 List 中时，会出现重复数据，这无疑给后续的数据处理和业务逻辑实现带来了诸多困扰。今天，咱们就来深入探讨一下，如何在 MyBatis 中将 List 中的重复数据进行标记并返回，让大家在面对这类问题时能够游刃有余。

问题引入

想象一下，你正在开发一个电商系统。在查询商品订单信息时，你需要获取某个用户一段时间内的所有订单记录，以便生成订单报表。当你通过 MyBatis 执行相应的 SQL 查询，并将结果存储在 List 中时，却发现 List 里存在重复的订单数据。这些重复数据不仅会占用额外的内存空间，更会导致报表统计结果出现偏差，进而影响整个系统的业务决策。这时候，如何准确地标记并处理这些重复数据，就成了摆在我们面前的一道难题。

背景介绍

MyBatis 作为一款优秀的持久层框架，它能够灵活地将 Java 对象与 SQL 查询结果进行映射。然而，由于数据库中数据的复杂性以及查询逻辑的多样性，重复数据的出现难以避免。比如，在多表联查时，由于表之间的关联关系，可能会导致某些记录被重复查询出来；又或者在数据插入过程中，由于业务逻辑的漏洞，导致部分重复数据进入了数据库。而我们要做的，就是在 MyBatis 层面，对这些已经查询出来进入 List 的重复数据进行有效的处理。

解决方案

（一）利用 SQL 关键字实现去重

DISTINCT 关键字

原理：在 SQL 查询语句中，使用 DISTINCT 关键字可以直接对查询结果进行去重。它会将查询结果中的所有列进行组合判断，如果某一行数据的所有列组合都与其他行完全相同，那么这一行数据就会被视为重复数据，只保留其中一条。

示例：假设我们有一个用户表 user，包含字段 id、name、age 等，现在要查询所有不重复的用户名。在 MyBatis 的 Mapper.xml 文件中，可以这样编写 SQL 语句：

<select id="selectDistinctUsernames" resultType="string">
    SELECT DISTINCT name FROM user
</select>

在 Java 代码中调用这个查询：

List<String> distinctUsernames = sqlSession.selectList("selectDistinctUsernames");

注意事项：使用 DISTINCT 关键字虽然简单直接，但它有一定的性能开销。因为它需要对整个查询结果集进行扫描和比较，以确定哪些数据是重复的。当查询结果集非常大时，可能会导致查询效率低下，甚至可能出现内存溢出的问题。

GROUP BY 子句

原理：GROUP BY 子句用于将查询结果按照指定的字段进行分组。当我们使用 GROUP BY 子句时，查询结果会按照分组字段的值进行分组，每组只返回一条记录。通常，我们会结合聚合函数（如 COUNT、SUM、AVG 等）一起使用，以便对每组数据进行统计操作。

示例：还是以用户表 user 为例，现在要统计每个年龄的用户数量。在 Mapper.xml 文件中编写如下 SQL：

<select id="countUsersByAge" resultType="map">
    SELECT age, COUNT(*) as userCount FROM user GROUP BY age
</select>

在 Java 代码中调用：

List<Map<String, Object>> result = sqlSession.selectList("countUsersByAge");

注意事项：使用 GROUP BY 子句时，查询结果中除了分组字段和聚合函数的结果外，不能包含其他字段。如果需要查询其他字段，需要确保这些字段在每组中具有唯一性，或者使用聚合函数对其进行处理。

（二）在 MyBatis 的 resultMap 中实现去重

使用 discriminator 标签

原理：MyBatis 的 resultMap 有一个去重机制，核心是使用 discriminator 标签。通过设置 discriminator 标签的 column 属性和 javaType 属性，我们可以确定区分不同结果的标识字段及其数据类型。然后，在各个子 resultMap 中设置唯一区分标识的值，这样当查询结果中有相同区分标识的数据时，MyBatis 就会将它们视为同一条数据，只返回其中一条。

示例：假设我们有一个用户视图 UserVO，其中可能存在一些重复的数据。我们希望通过某个唯一确定的主键（假设为 id 字段）来进行去重。在 Mapper.xml 文件中定义如下 resultMap：

<resultMap id="userVOResultMap" type="UserVO">
    <id property="id" column="id"/>
    <result property="name" column="name"/>
    <result property="age" column="age"/>
    <discriminator javaType="int" column="id">
        <case value="1" resultType="UserVO">
            <id property="id" column="id"/>
            <result property="name" column="name"/>
            <result property="age" column="age"/>
        </case>
        <!-- 可以根据实际情况添加更多的case -->
    </discriminator>
</resultMap>

然后在查询语句中使用这个 resultMap：

<select id="selectUserVOs" resultMap="userVOResultMap">
    SELECT * FROM user_view
</select>

注意事项：设置 discriminator 标签时，要确保指定的区分标识字段在整个查询结果集中具有唯一性。如果该字段存在重复值，可能会导致错误的去重结果。

利用 id 标签的联合主键功能

原理：在 resultMap 中，id 标签不仅可以用于指定单个主键，还可以通过多个 id 标签组合来表示联合主键。MyBatis 会根据这些联合主键的值来判断数据是否重复。如果某两条数据的联合主键值完全相同，那么它们就会被视为同一条数据。

示例：假设我们的 UserVO 中没有单个唯一的主键，但可以通过 name 和 age 字段组合成联合主键来区分不同的用户。在 Mapper.xml 文件中定义如下 resultMap：

<resultMap id="userVOResultMap" type="UserVO">
    <id property="name" column="name"/>
    <id property="age" column="age"/>
    <result property="email" column="email"/>
</resultMap>

查询语句同样使用这个 resultMap：

<select id="selectUserVOs" resultMap="userVOResultMap">
    SELECT * FROM user_view
</select>

注意事项：使用联合主键时，要确保联合主键的各个字段组合起来能够唯一地标识每一条数据。同时，在编写 SQL 查询语句时，要确保查询结果中包含了联合主键的所有字段。

（三）在 Java 代码层面处理重复数据

使用 HashSet 进行去重

原理：HashSet 是 Java 集合框架中的一个类，它基于哈希表实现，具有唯一性。当我们将 List 中的数据添加到 HashSet 中时，HashSet 会根据元素的哈希值和 equals 方法来判断元素是否重复。如果元素已经存在于 HashSet 中，添加操作将不会成功。

示例：假设我们通过 MyBatis 查询得到了一个 List userList，现在要对其进行去重。可以使用以下代码：

HashSet<User> userSet = new HashSet<>(userList);
List<User> distinctUserList = new ArrayList<>(userSet);

注意事项：使用 HashSet 进行去重时，需要确保 User 类正确重写了 hashCode 和 equals 方法。否则，HashSet 可能无法正确判断元素的重复性。

使用 Java 8 的 Stream API 进行去重

原理：Java 8 的 Stream API 提供了丰富的操作集合的方法，其中的 distinct 方法可以用于对 Stream 中的元素进行去重。它会根据元素的 equals 方法来判断元素是否重复。

示例：还是以 List userList 为例，使用 Stream API 去重的代码如下：

List<User> distinctUserList = userList.stream()
                                      .distinct()
                                      .collect(Collectors.toList());

注意事项：同样，使用 Stream API 的 distinct 方法时，相关类也需要正确重写 equals 方法。另外，如果数据量非常大，Stream API 的操作可能会对性能产生一定影响，需要根据实际情况进行评估。

（四）标记重复数据

有时候，我们不仅仅需要去除重复数据，还需要对重复数据进行标记，以便在后续的业务逻辑中进行特殊处理。

添加标记字段

原理：在数据库表中添加一个专门用于标记重复数据的字段（例如 isDuplicate，数据类型可以为 int 或 boolean）。在查询数据时，通过 SQL 语句或者在 Java 代码中判断数据是否重复，并设置该字段的值。

示例：在 SQL 查询中，可以使用 CASE 语句来判断并设置标记字段。假设我们有一个订单表 order，现在要标记重复的订单号。在 Mapper.xml 文件中编写如下 SQL：

<select id="selectOrdersWithDuplicateMark" resultType="map">
    SELECT 
        order_id, 
        order_number, 
        CASE 
            WHEN order_number IN (SELECT order_number FROM order GROUP BY order_number HAVING COUNT(*) > 1)
            THEN 1
            ELSE 0
        END as isDuplicate
    FROM order
</select>

在 Java 代码中获取结果后，就可以根据 isDuplicate 字段的值来判断哪些订单号是重复的。

注意事项：添加标记字段会增加数据库表的复杂度和存储空间。同时，在数据插入和更新时，也需要相应地处理这个标记字段，确保其值的准确性。

在对象中添加标记属性

原理：在 Java 对象中添加一个属性来表示该对象是否为重复数据。在从数据库查询数据并封装成对象后，通过逻辑判断设置该属性的值。

示例：假设我们有一个 Order 类，现在添加一个 boolean 类型的 isDuplicate 属性。在查询数据后，通过遍历 List，使用双重循环比较对象的关键属性（如订单号）来判断是否重复，并设置 isDuplicate 属性的值。

List<Order> orderList = sqlSession.selectList("selectOrders");
for (int i = 0; i < orderList.size(); i++) {
    Order order1 = orderList.get(i);
    for (int j = i + 1; j < orderList.size(); j++) {
        Order order2 = orderList.get(j);
        if (order1.getOrderNumber().equals(order2.getOrderNumber())) {
            order1.setIsDuplicate(true);
            order2.setIsDuplicate(true);
        }
    }
}

注意事项：这种方式会增加对象的内存占用。并且在处理大量数据时，双重循环比较的方式性能较低，需要考虑优化算法，比如可以先对数据进行排序，然后再进行比较。