Bài 3 · Danh sách khác biệt
dEclat — mọi tập phổ biến bằng danh sách khác biệt
dEclat chính là Eclat, chỉ khác ở chỗ thay vì lưu trọn danh sách giao dịch, nó lưu danh sách khác biệt cho gọn. Nó vẫn tìm ra toàn bộ tập phổ biến; điểm khác duy nhất là cách tính độ phổ biến: lấy độ phổ biến của phần đầu trừ đi số giao dịch khác biệt.
1. Ý tưởng chung
Danh sách khác biệt lưu phần chênh lệch giữa một tập và phần đầu của nó, nên thường ngắn hơn danh sách giao dịch rất nhiều, nhờ vậy tính toán nhanh và đỡ tốn bộ nhớ.
Khi làm tay, ta theo thói quen thế này: ở mức một, tức từng mặt hàng riêng lẻ, vẫn giữ danh sách giao dịch bình thường; chỉ bắt đầu dùng danh sách khác biệt từ mức hai, khi ghép hai mặt hàng trở đi.
Cần nhớ là kết quả của dEclat giống hệt Eclat: nó cho ra tất cả các tập phổ biến, chứ không phải chỉ tập đóng hay tập tối đại.
2. Hai quy tắc tính
Danh sách khác biệt của tập hai mặt hàng là những giao dịch có mặt hàng đầu nhưng vắng mặt hàng sau. Độ phổ biến của tập bằng độ phổ biến của mặt hàng đầu trừ đi số giao dịch khác biệt vừa đếm.
Lấy danh sách khác biệt của thành viên đứng sau, bỏ đi những giao dịch đã có trong danh sách khác biệt của thành viên đứng trước; phần còn lại là danh sách khác biệt của tập mới. Độ phổ biến của tập mới bằng độ phổ biến của thành viên đứng trước trừ đi số giao dịch vừa tìm được. Lưu ý thứ tự: luôn lấy của thành viên sau trừ đi của thành viên trước, và trừ độ phổ biến từ thành viên trước.
3. Giải mẫu từng bước
Vẫn bảng dữ liệu quen thuộc, ngưỡng phổ biến bằng ba, thứ tự xét là A, D, T, W rồi C. Độ phổ biến của từng mặt hàng: A bốn, D bốn, T bốn, W năm, C sáu.
Nhóm phần đầu A — bước sang mức hai
Tính cho cặp AD và cặp AT.
Tính cho cặp AW và cặp AC.
Lên mức ba và mức bốn trong nhóm A.
Các nhóm D, T và W
Nhóm T. Cặp TW có những giao dịch có T mà vắng W là giao dịch 6, danh sách khác biệt một giao dịch, độ phổ biến bốn trừ một còn ba. Cặp TC có danh sách khác biệt rỗng, độ phổ biến bốn. Lên mức ba, ghép TW với TC để được TWC: danh sách khác biệt rỗng, độ phổ biến ba.
Nhóm W. Cặp WC có danh sách khác biệt rỗng, độ phổ biến năm.
Năm tập một mặt hàng: A độ phổ biến bốn, D bốn, T bốn, W năm, C sáu. Các tập hai mặt hàng: AT độ phổ biến ba, AW bốn, AC bốn, DW ba, DC bốn, TW ba, TC bốn, WC năm. Các tập ba mặt hàng: ATW ba, ATC ba, AWC bốn, DWC ba, TWC ba. Và một tập bốn mặt hàng: ATWC độ phổ biến ba. (Một vài tên viết gọn theo thứ tự chữ cái: AC cũng là AC, TC chính là CT, WC chính là CW, DC chính là CD, còn ATWC chính là ACTW.)
4. Bài tập tự luyện
Dùng bảng P, ngưỡng phổ biến bằng hai. Năm giao dịch: giao dịch một có B, C, M; giao dịch hai có B, E; giao dịch ba có B, C, E, M; giao dịch bốn có C, E, O; giao dịch năm có B, C, E, M. Sau khi loại O, thứ tự xét là M, B, C, E.
Bài một. Tính danh sách khác biệt và độ phổ biến của MB, MC, ME ở mức hai.
Bài hai. Lên mức ba: tính danh sách khác biệt và độ phổ biến của MBC, MBE.