Proximity Search in Databases

Proximity Search in Databases

Roy Goldman, Narayanan Shivakumar,

Suresh Venkatasubramanian, Hector Garcia-Molina

1998

מוצג ע"י: אייל מישור

הקדמה

במה מתאפיין חיפוש כזה ?

מה החידוש במאמר ?

איך עושים את זה ?

דוגמה

Internet Movie Database (www.imdb.com)

over 140,000 movies

over 500,000 film industry workers

Queries Structure:

Find <keyword> Near <keyword>

דוגמה - המשך

הבעיה

ranking objects in the Find set based on their proximity to objects in the Near set

ה-framework של הפתרון

IMDB

IMDB

חישוב ה-proximity

מציאת המרחקים

Self-Joins

Hub Indexing

Constructing Hub Index

בחירת ה-Hubs

Performance Experiments

Sun SPARC/Ultra II (2x200 Mhz) running SunOS 5.6, with 256 Mbs RAM, and 18 Gbs local disk space

IMDB - 4MB of 1997 films.

S = 10; no more than 2.5% hubs

K= 12 no more than 2.5% hubs

S = 10; K = 12

הרחבות

עדכון אינקרמנטלי של האינדקסים כשהנתונים משתנים

שמירת המסלולים הקצרים ולא רק המרחקים.