ما به بررسی استخراج داده از صفحات وب می پردازیم. داده های استخراج شده در جداول قرار داده می شود. برای کاربرد، به هر حال، برای کاربرد آن، کافی نیست تا داده ها را تنها از یک سایت خاص استخراج کنیم. درعوض داده های حاصل شده از تعداد زیادی از سایت ها به منظور ایجاد خدمات ارزش افزوده گرداوری می گردد. در چنین مواردی استخراج تنها بخشی از داستان می باشد. بخش دیگر یکپارچه سازی داده استخراج شده به منظور ایجاد پایگاه داده منسجم و پایدار می باشد، زیرا سایت های مختلف معمولا از فرمت های دادهای متفاوتی استفاده می کند. به طور تجربی، یکپارچه سازی به معنی انطباق ستون ها در جداول داده مختلف می باشد که حاوی انواع مشابهی از اطلاعات می باشند (به عنوان مثال نام محصول) و منطبق با ارزش هایی می باشند که از نقطه نظر معنایی مشابه بوده اما در وب سایت های مختلف به طور متفاوتی نشان داده می شوند (برای نمونه کوک و کوکاکولا). متاسفانه پژوهش های یکپارچه محدودی تا به حال در این زمینه خاص انجام شده است. بسیاری از تحقیقات مربوط به یکپارچه سازی داده های وب تمرکزش را نبر روی یکپارچه سازی رابط های پرس و جوی وب قرار داده است. این مقاله دارای چندین بخش در مورد با یکپارچگی داده می باشد. به هر حال بسیاری از ایده های توسعه یافته برای یکپارچه سازی داده های استخراجی کاربردی می باشند زیرا مسائل مشابه می باشند. رابط پرس و جو وب برای تنظیم جستجوها به منظور بازیابی داده مورد نیاز از پایگاه داده وب مورد استفاده قرار می گیرد (که به نام مرکز وب می باشد) شکل 10.1، دو رابط جستجوگر را از دو سایت مسافرتی expedia.com و vacation.com نشان می دهد. کاربری که قصد خرید بلیط هواپیما را دارد معمولا به سایت های زیادی سر می زند تا ارزان ترین بلیط را پیدا کند. با توجه به تعداد زیادی از سایت های پیشنهادی، فرد می بایست به هر کدام به طور جداگانه دسترسی داشته تا بهترین قیمت را پیدا کند، که کار خسته کننده ای می باشد. برای کاهش دادن تلاش فیزیکی، می توانیم رابط های جستجوگر جهانی را ایجاد کنیم که دسترسی یکپارچه ای را به منابع وابسته مختلف امکان پذیر می کند. به این ترتیب کاربر می تواند نیازمندی های خود را در این رابط سراسری مجزا تکمیل کرده و تمام منابع مورد نظر (پایگاه داده ای) به صورت اتوماتیک پر شده و جستجو می گردد. نتایج حاصل شده از منابع مختلف همچنین نیاز به یکپارچه سازی دارند. اما مشکلات یکپارچه سازی، یعنی، یکپارچه سازی رابط جستجوگر و یکپارچه سازی نتایج حاصله، به دلیل غیریکنواختی وب سایت ها چالش انگیز می باشد. به طور مشخص، یکپارچه سازی تنها مختص به وب نمی باشد. این درواقع، ابتدا در زمینه پایگاه داده مرتبط و انبارهای داده مورد بررسی قرار می گیرد. از این رو، این فصل در ابتدا به معرفی اکثر مفاهیم یکپارچه مرتبط با استفاده از مدل های داده سنتی (برای نمونه، رابطه ای) پرداخته و سپس نشان می دهد چگونه این مفاهیم متناسب با کاربردهای وب بوده و چگونه مشکلات خاص وب مدیریت می گردد.