35,90 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 6-10 Tagen
  • Broschiertes Buch

Tabellarische Daten sind eine bestehende Informationsquelle im Internet. Wir haben mit der Sammlung von HTML-Tabellen aus dem Internet begonnen. Zunächst werden Tabellen guter Qualität identifiziert, dann wird ein Schema-Matching durchgeführt. Beim Schema-Matching wird die Anzahl der Übereinstimmungen ermittelt, die die ähnlichen Elemente aus zwei verschiedenen Schemata bestimmen. Die Spalten und Datenwerte werden nacheinander verglichen, um das Schema abzugleichen. Bei der Suche nach tabellarischen Daten im Web kann die Suchmaschine eine URL anstelle von tabellarischen Daten zurückgeben, was…mehr

Produktbeschreibung
Tabellarische Daten sind eine bestehende Informationsquelle im Internet. Wir haben mit der Sammlung von HTML-Tabellen aus dem Internet begonnen. Zunächst werden Tabellen guter Qualität identifiziert, dann wird ein Schema-Matching durchgeführt. Beim Schema-Matching wird die Anzahl der Übereinstimmungen ermittelt, die die ähnlichen Elemente aus zwei verschiedenen Schemata bestimmen. Die Spalten und Datenwerte werden nacheinander verglichen, um das Schema abzugleichen. Bei der Suche nach tabellarischen Daten im Web kann die Suchmaschine eine URL anstelle von tabellarischen Daten zurückgeben, was das Hauptproblem ist. Wir arbeiten also an diesem Problem, indem wir Daten von tabellarischen Webseiten extrahieren und ihr Schema extrahieren und dann einen Schemaabgleich durchführen, indem wir die Korrespondenz ähnlicher Elemente durch korpusbasierte Technik identifizieren. Nach dem Schemaabgleich füllten wir die Daten der HTML-Seiten auf, indem wir verwandte Tabellen in einer HTML-Tabelle zusammenfügten, die für die Benutzer besser geeignet und hilfreich ist.
Autorenporträt
Kamran Shaukat arbeitet als Dozent für Informationstechnologie an der University of the Punjab, Jhelum Campus. Jhelum. Er hat einen MS-Abschluss in Informatik mit Goldmedaille der Mohammad Ali Jinnah University, Islamabad, und einen BS-Abschluss in Informatik des Punjab University College of Information Technology, University of the Punjab, Lahore.