05 两个数组的交集

约 1417 字大约 5 分钟

2024-08-11

给你两个整数数组 nums1 和 nums2 ，请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数，应与元素在两个数组中都出现的次数一致（如果出现次数不一致，则考虑取较小值）。可以不考虑输出结果的顺序

示例 1：

输入：nums1 = [1,2,2,1], nums2 = [2,2]
输出：[2,2]

示例 2:

输入：nums1 = [4,9,5], nums2 = [9,4,9,8,4]
输出：[4,9]

提示：

1 <= nums1.length, nums2.length <= 1000
0 <= nums1[i], nums2[i] <= 1000

进阶：

如果给定的数组已经排好序呢？你将如何优化你的算法？
如果 nums1 的大小比 nums2 小，哪种方法更优？
如果 nums2 的元素存储在磁盘上，内存是有限的，并且你不能一次加载所有的元素到内存中，你该怎么办？

官方解法

解法一：哈希表

由于同一个数字在两个数组中都可能出现多次，因此需要用哈希表存储每个数字出现的次数。对于一个数字，其在交集中出现的次数等于该数字在两个数组中出现次数的最小值

首先遍历第一个数组，并在哈希表中记录第一个数组中的每个数字以及对应出现的次数，然后遍历第二个数组，对于第二个数组中的每个数字，如果在哈希表中存在这个数字，则将该数字添加到答案，并减少哈希表中该数字出现的次数

为了降低空间复杂度，首先遍历较短的数组并在哈希表中记录每个数字以及对应出现的次数，然后遍历较长的数组得到交集

public static int[] intersect(int[] nums1, int[] nums2) {
    // 比较数组大小，保证 nums1 是长度较小数组，减少构建 hash 表的大小
    if (nums1.length > nums2.length) {
        return intersect(nums2, nums1);
    }
    // 构建长度较短数组的 hashMap，key 为数字，value 为数字出现次数
    Map<Integer, Integer> map = new HashMap<>();
    for (int num : nums1) {
        int count = map.getOrDefault(num, 0) + 1;
        map.put(num, count);
    }
    // 初始化结果数组，最大长度为较短数组长度
    int[] intersection = new int[nums1.length];
    int index = 0;
    // 循环遍历 nums2，如果 hashMap 中有这个数组，并且 count 大于 0，即添加到结果数组中
    for (int num : nums2) {
        int count = map.getOrDefault(num, 0);
        if (count > 0) {
            intersection[index++] = num;
            count--;
            if (count > 0) {
                map.put(num, count);
            } else {
                map.remove(num);
            }
        }
    }
    // 需要重新整理数组长度
    return Arrays.copyOfRange(intersection, 0, index);
}

复杂度分析

时间复杂度：O(m+n)，其中 m 和 n 分别是两个数组的长度。需要遍历两个数组并对哈希表进行操作，哈希表操作的时间复杂度是 O(1)，因此总时间复杂度与两个数组的长度和呈线性关系
空间复杂度：O(min(m,n))，其中 m 和 n 分别是两个数组的长度。对较短的数组进行哈希表的操作，哈希表的大小不会超过较短的数组的长度。为返回值创建一个数组 intersection，其长度为较短的数组的长度

解法二：排序 + 指针

如果两个数组是有序的，则可以使用双指针的方法得到两个数组的交集

首先对两个数组进行排序，然后使用两个指针遍历两个数组

初始时，两个指针分别指向两个数组的头部。每次比较两个指针指向的两个数组中的数字，如果两个数字不相等，则将指向较小数字的指针右移一位，如果两个数字相等，将该数字添加到答案，并将两个指针都右移一位。当至少有一个指针超出数组范围时，遍历结束

public static int[] intersect(int[] nums1, int[] nums2) {
    Arrays.sort(nums1);
    Arrays.sort(nums2);
    int len1 = nums1.length, len2 = nums2.length;
    // 初始化结果数组
    int[] intersection = new int[Math.min(len1, len2)];
    int index1 = 0, index2 = 0, index = 0;
    while (index1 < len1 && index2 < len2) {
        if (nums1[index1] < nums2[index2]) {
            index1++;
        } else if (nums1[index1] > nums2[index2]) {
            index2++;
        } else {
            intersection[index] = nums1[index1];
            index++;
            index1++;
            index2++;
        }
    }
    // copy 数组，因为原来定义的数组长度是可能的最大长度
    return Arrays.copyOfRange(intersection, 0, index);
}

复杂度分析

时间复杂度：O(mlogm+nlogn)，其中 m 和 n 分别是两个数组的长度。对两个数组进行排序的时间复杂度是 O(mlogm+nlogn)，遍历两个数组的时间复杂度是 O(m+n)，因此总时间复杂度是 O(mlogm+nlogn)

空间复杂度：O(min(m,n))，其中 m 和 n 分别是两个数组的长度。为返回值创建一个数组 intersection，其长度为较短的数组的长度。不过在 C++ 中，我们可以直接创建一个 vector，不需要把答案临时存放在一个额外的数组中，所以这种实现的空间复杂度为 O(1)

如果 nums2 的元素存储在磁盘上，磁盘内存是有限的，并且你不能一次加载所有的元素到内存中。那么就无法高效地对 nums2 进行排序，因此推荐使用方法一而不是方法二。在方法一中，nums2 只关系到查询操作，因此每次读取 nums2 中的一部分数据，并进行处理即可

自解

public int[] intersect(int[] nums1, int[] nums2) {
    Map<Integer, Integer> setMap = new HashMap<>();
    for (int i = 0; i < nums1.length; i++) {
        for (int j = 0; j < nums2.length; j++) {
            if (nums1[i] == nums2[j] && !setMap.containsKey(j)) {
                setMap.put(j, nums2[j]);
                break;
            }
        }
    }
    int[] resultNums = new int[setMap.size()];
    int i = 0;
    for (Map.Entry<Integer, Integer> mapEntry : setMap.entrySet()) {
        resultNums[i++] = mapEntry.getValue();
    }
    return resultNums;
}