C# HashSet 完整介绍：从入门到精通

在 C# 编程中，处理集合数据是日常任务之一。当我们需要一个只包含唯一元素的集合，并且对元素的查找、添加和删除操作有高性能要求时，HashSet<T> 便是一个理想的选择。本文将从入门到精通，详细介绍 HashSet<T> 的各个方面。

1. `HashSet<T>` 是什么？

HashSet<T> 是 System.Collections.Generic 命名空间下的一个集合类，它存储不重复的元素。其核心特性是基于哈希表实现，这意味着它能提供非常高效的集合操作。

主要特性：

唯一性： HashSet<T> 保证集合中的所有元素都是唯一的，不允许重复。当你尝试添加一个已存在的元素时，操作会失败（Add 方法返回 false），集合不会改变。
无序性： 元素在 HashSet<T> 中没有特定的顺序。它不保留元素的插入顺序，也不能通过索引访问元素。
高性能： 由于底层使用哈希表，HashSet<T> 在添加、删除和查找元素时具有极高的效率。

2. 为什么要使用 `HashSet<T>`？（优势）

与 List<T> 或数组等其他集合类型相比，HashSet<T> 在特定场景下具有显著优势：

快速去重： 它是从另一个集合中快速去除重复元素的最佳工具。
高效查找： 需要频繁检查某个元素是否存在于集合中时，HashSet<T> 的 Contains() 方法性能远超 List<T> 的线性搜索。
集合操作： 提供了一系列强大的数学集合操作，如并集、交集、差集等。

3. `HashSet<T>` 的基本用法

3.1 创建 `HashSet<T>`

你可以创建一个空的 HashSet<T>，也可以使用现有集合初始化它。

“`csharp
using System.Collections.Generic;
using System;

// 创建一个空的整数 HashSet
HashSet numbers = new HashSet();

// 使用 List 初始化一个 HashSet，自动去重
List duplicateNames = new List { “Alice”, “Bob”, “Alice”, “Charlie” };
HashSet uniqueNames = new HashSet(duplicateNames);
// uniqueNames 现在包含 {“Alice”, “Bob”, “Charlie”}
“`

3.2 添加元素

使用 Add() 方法向 HashSet<T> 中添加元素。如果元素已存在，Add() 将返回 false。

“`csharp
HashSet fruits = new HashSet();
fruits.Add(“Apple”); // 返回 true
fruits.Add(“Banana”); // 返回 true
fruits.Add(“Apple”); // 返回 false (Apple 已存在)

Console.WriteLine($”Contains Apple: {fruits.Contains(“Apple”)}”); // True
Console.WriteLine($”Count: {fruits.Count}”); // 2
“`

3.3 删除元素

HashSet<T> 提供了多种删除元素的方法：

Remove(T item)：删除指定的单个元素。如果元素存在并被删除，返回 true。
RemoveWhere(Predicate<T> match)：删除所有符合指定条件的元素。
Clear()：清空集合中的所有元素。

“`csharp
fruits.Remove(“Banana”); // 返回 true
fruits.Remove(“Grape”); // 返回 false

// 使用 RemoveWhere 删除所有以 ‘A’ 开头的元素
HashSet animals = new HashSet { “Ant”, “Bear”, “Cat”, “Ape” };
animals.RemoveWhere(animal => animal.StartsWith(“A”));
// animals 现在包含 {“Bear”, “Cat”}

animals.Clear(); // 清空集合
“`

3.4 检查元素是否存在

使用 Contains() 方法高效地检查集合中是否包含某个元素。

csharp bool hasApple = fruits.Contains("Apple"); // 根据上面的操作，此时为 false

4. 性能特点

HashSet<T> 的设计目标是提供极致的性能，尤其是在处理大量数据时。

时间复杂度： 对于 Add()、Remove() 和 Contains() 等基本操作，HashSet<T> 的平均时间复杂度是 O(1)（常数时间）。这意味着无论集合中有多少元素，这些操作的执行时间大致相同。这种效率得益于其底层哈希表结构，它能通过元素的哈希码直接定位到存储位置。
与 List<T> 的比较：
- 查找 (Contains)： HashSet<T> 远优于 List<T>。List<T> 需要进行线性搜索（O(n)），而 HashSet<T> 是 O(1)。
- 添加 (Add)： 对于非常小的集合，List<T> 的添加操作可能略快，因为 HashSet<T> 有计算哈希值的额外开销。但对于大型集合，HashSet<T> 在去重的同时保持 O(1) 的添加效率，而 List<T> 如果需要去重则会更慢。
- 内存： HashSet<T> 通常比 List<T> 占用更多的内存，因为它需要为哈希表维护额外的数据结构。

5. 高级特性：集合操作

`HashSet