Khai thác dữ liệu lớn · Ôn tập làm bài tay

5 thuật toán khai phá tập phổ biến theo chiều dọc

Bộ tài liệu ôn tập cho bài tập chạy tay (không dùng code) gồm Charm, GenMax, dEclat, dCharm, dGenMax. Mỗi trang đi theo một mạch quen thuộc: trước hết là phần lý thuyết, rồi tới các quy tắc, sau đó là ví dụ giải từng bước, và cuối cùng là phần bài tập tự luyện có sẵn đáp án để đối chiếu.

📅 Hạn nộp: 06-Jun-2026 · Ôn từ 30-May-2026

Bộ dữ liệu dùng chung (Zaki ACTW)

Tất cả ví dụ trong bộ tài liệu này dùng đúng một bảng giao dịch, với ngưỡng phổ biến tối thiểu bằng ba (tức một nửa trong số sáu giao dịch). Học một bộ dữ liệu nhưng thấy rõ khác biệt giữa ba loại tập phổ biến, và giữa hai cách lưu là danh sách giao dịch với danh sách khác biệt.

Bảng dạng ngang

Giao dịchCác mặt hàng
1A C T W
2C D W
3A C T W
4A C D W
5A C D T W
6C D T

Bảng dạng dọc — mỗi mặt hàng có mặt ở đâu

Mặt hàngCó mặt ở các giao dịchĐộ phổ biến
A1, 3, 4, 5bốn
C1, 2, 3, 4, 5, 6sáu
D2, 4, 5, 6bốn
T1, 3, 5, 6bốn
W1, 2, 3, 4, 5năm

Độ phổ biến của một mặt hàng là số giao dịch có chứa nó. Cả năm mặt hàng đều có độ phổ biến từ bốn trở lên, đều vượt ngưỡng ba, nên đều phổ biến.

5 thuật toán — phân biệt nhanh

Thuật toánTìm cái gìLưu dữ liệu kiểu nàoDựa trên
CharmCác tập đóngdanh sách giao dịchEclat, thêm bốn tình huống
GenMaxCác tập tối đạidanh sách giao dịchQuay lui, có cắt tỉa bao trùm
dEclatTất cả tập phổ biếndanh sách khác biệtEclat
dCharmCác tập đóngdanh sách khác biệtCharm
dGenMaxCác tập tối đạidanh sách khác biệtGenMax

Ba bản có chữ d ở đầu cho ra cùng kết quả như bản gốc; chúng chỉ thay danh sách giao dịch bằng danh sách khác biệt để tính cho nhanh hơn.

Vào từng bài

Lịch ôn từ 30-May đến 06-Jun

30-MayNền tảng — bảng dạng dọc, danh sách giao dịch, độ phổ biến, danh sách khác biệt, và phân biệt ba loại tập phổ biến. Nhớ kỹ cách tính danh sách khác biệt.
31-MayCharm — bốn tình huống và cách nhận ra tập đóng. Tự giải lại ví dụ chính mà không nhìn đáp án.
01-JunGenMax — lối dò quay lui và cách cắt tỉa bằng kiểm tra bao trùm.
02-JundEclat — chuyển từ danh sách giao dịch sang danh sách khác biệt, và cách tính độ phổ biến qua danh sách khác biệt.
03-JundCharm — bốn tình huống đó nhìn lại qua danh sách khác biệt.
04-JundGenMax — GenMax kết hợp với danh sách khác biệt.
05-JunTổng ôn — làm hết phần bài tập tự luyện của cả năm trang bằng tay, có bấm giờ.
06-Jun🎯 Nộp bài.