Extracting Structured Data from Web Pages

Arvind Arasu, Hector Garcia-Molina
Stanford University

Bài báo này có ý tưởng khá tương đồng với bài viết Automatic Tree and String Based Wrapper Generation for Semi-structured Documents, khi trích lọc các template trước. Tuy nhiên phương pháp thực hiện giữa 2 bài này lại khác nhau khá nhiều. 

Phương pháp của bài này coi trọng tính chất của cây và cấu trúc dữ liệu hơn. 

Cấu trúc dữ liệu: 

  1. token: là 1 từ hay 1 tag HTML
  2. Basic type: thay thế cho 1 chuỗi token. 
  3. Nếu T1, T2, ... Tn là các type (?) thì danh sách <T1, T2, ..., Tn> cũng là 1 type. (tuple)
  4. Nếu T là type, thì tập hợp {T} cũng là 1 type. (set)
  5. Template là 1 khung dựng sẵn, chỉ rõ những dữ liệu nhập vào sẽ được đặt vào vị trí nào. 

Phương pháp tách template:

  1. Thuật toán exAlg
    1. Tách các class tương ứng - tập hợp những tokens có cùng tần số xuất hiện trong tất cả các pages. 
    2. Chỉ giữ lại những class tương ứng lớn và xuất hiện trong 1 phần lớn các pages. 
    3. Được gọi là LFEQs.
  2. Thuật toán và chương trình đã có trên mạng (C/C++). 
Comments