Tabellarische Daten sind eine bestehende Informationsquelle im Internet. Wir haben mit der Sammlung von HTML-Tabellen aus dem Internet begonnen. Zunächst werden Tabellen guter Qualität identifiziert, dann wird ein Schema-Matching durchgeführt. Beim Schema-Matching wird die Anzahl der Übereinstimmungen ermittelt, die die ähnlichen Elemente aus zwei verschiedenen Schemata bestimmen. Die Spalten und Datenwerte werden nacheinander verglichen, um das Schema abzugleichen. Bei der Suche nach tabellarischen Daten im Web kann die Suchmaschine eine URL anstelle von tabellarischen Daten zurückgeben, was das Hauptproblem ist. Wir arbeiten also an diesem Problem, indem wir Daten von tabellarischen Webseiten extrahieren und ihr Schema extrahieren und dann einen Schemaabgleich durchführen, indem wir die Korrespondenz ähnlicher Elemente durch korpusbasierte Technik identifizieren. Nach dem Schemaabgleich füllten wir die Daten der HTML-Seiten auf, indem wir verwandte Tabellen in einer HTML-Tabelle zusammenfügten, die für die Benutzer besser geeignet und hilfreich ist.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.