Due to the lack of a uniform schema for Web documents and the sheer amount and dynamics of Web data, both the effectiveness and the efficiency of information management and retrieval of Web data is often unsatisfactory when using conventional data management techniques.Web community, defined as a set of Web-based documents with its own logical structure, is a flexible and efficient approach to support information retrieval and to implement various applications. Zhang and his co-authors explain how to construct and analyse Web communities based on information like Web document contents,…mehr
Due to the lack of a uniform schema for Web documents and the sheer amount and dynamics of Web data, both the effectiveness and the efficiency of information management and retrieval of Web data is often unsatisfactory when using conventional data management techniques.Web community, defined as a set of Web-based documents with its own logical structure, is a flexible and efficient approach to support information retrieval and to implement various applications. Zhang and his co-authors explain how to construct and analyse Web communities based on information like Web document contents, hyperlinks, or user access logs. Their approaches combine results from Web search algorithms, Web clustering methods, and Web usage mining. They also detail the necessary preliminaries needed to understand the algorithms presented, and they discuss several successful existing applications.Researchers and students in information retrieval and Web search find in this all the necessary basics and methods to create and understand Web communities. Professionals developing Web applications will additionally benefit from the samples presented for their own designs and implementations.
Die Herstellerinformationen sind derzeit nicht verfügbar.
Autorenporträt
Dr. Yanchun Zhang is Associate Professsor and the Head of Computing Discipline in the Department of Mathematics and Computing at the University of Southern Queensland. He obtained PhD degree in Computer Science from the University of Queensland in 1991. His research areas cover databases, electronic commerce, internet/web information systems, web data management, web search and web services. He has published over 100 research papers on these topics in international journals and conference proceedings, and edited over 10 books/proceedings and journal special issues. He is a co-founder and Co-Editor-In-Chief of World Wide Web: Internet and Web Information Systems and Co-Chairman of International Web Information Systems Engineering Society. Dr. Jeffrey Xu Yu received his B.E., M.E. and Ph.D. in computer science, from the University of Tsukuba, Japan, in 1985, 1987 and 1990, respectively. Jeffrey Xu Yu was a faculty member in the Institute of Information Sciences and Electronics, University of Tsukuba, Japan, and was a Lecturer in the Department of Computer Science, The Australian National University. Currently, he is an Associate Professor in the Department of Systems Engineering and Engineering Management, the Chinese University of Hong Kong. His research areas cover databases, data warehouse and data mining. He has published over 100 research papers on these topics in international journals and conference proceedings. Jeffrey Xu Yu is a member of ACM, and a society affiliate of IEEE Computer Society. Dr Jingyu Hou received his BSc in Computational Mathematics from Shanghai University of Science and Technology (1985) and his PhD in Computational Mathematics from Shanghai University (1995). He is now a Lecturer in the School of Information Technology at Deakin University, Australia. He has also completed a PhD in Computer Science in the Department of Mathematics and Computing at The University of Southern Queensland, Australia. His researchinterests include Web-Based Data Management and Information Retrieval, Web Databases, Internet Computing and Electronic Commerce, and Semi-Structured Data Models. He has extensively published in the areas of Web information retrieval and Web Communities.
Inhaltsangabe
Chapter 1: Introduction (10 pages) -- Web Search, -- Information Filtering -- Web Community Chapter 2: Preliminaries (30 pages) -- Statistics -- Similarity -- Markov Model -- Matrix Expression of Hyperlinks -- Eigenvector, Principle Engenvector, Secondary Engenvector -- Singular Value Decomposition (SVD) of Matrix -- Graph Theory Basis (Random walk) Chapter 3: HITS and Related Algorithms (50 pages) -- The Original HITS -- The Stability issues -- The Randomized HITS -- The Subspace HITS -- Weighted HITS -- Vector Space Model (VSM) -- Cover Density Ranking (CDR) -- The In-depth Analysis of the HITS -- HITS Improvement (a significant improvement to clever algorithm) -- Noise Page Elimination Algorithm Based on SVD -- The PHITS algorithm (probabilistic HITS) -- SALSA (Stochastic algorithm) -- Random Walks and the Kleinberg Algorithm Chapter 4: PageRank Related Algorithms (50 pages) -- The Original PageRank -- Probability Combination of Link and Content Information in PageRank -- Topic-Sensitve PageRank -- Search-Order: Breadth-First, Backlink, Random -- Quadratic Extrapolation -- Exporing the Block Structure of the Web for Computing PageRank -- Second Eignevalue of the Google Matrix -- A Latent Linkage Information (LLI) Algorithm -- WebPage Scoring Systems (WPSS) -- Rank Aggregation -- Random Suffer Method -- Voting Model -- SimRank (graph-based) -- When Experts Agree: Using Non-Affliated Experts to Rank Popular Topics -- PageRank, HITS and a Unified Framework for Link Analysis Chapter 5: Web Classification and Clustering (50 pages) -- Web Document Similarity Measurement -- Web Document Classification Based on Hyperlinks and Document Semantics -- Clustering Hypertext with Applications to Web Search -- Link-based Clustering to Improve Web Search Results -- Measure Similarity of Interest for Clustering Web-Users -- Clustering of Web Users Using Session-based Similarity Measures -- Scalable Techniques for Clustering the Web -- Clustering web surfers with mixtures of hidden Markov Models -- Clustering User Queries of a Search Engine -- Using Web Structure for Classifying and Describing Web Pages -- Matrix-Based Hierarchical Clustering Algorithms Chapter 6: Web Log/Content Mining for Web Community (50 pages) -- Cut-and-Pick Transactions for Proxy Log Mining -- Mining Web Logs to Improve Website Organization -- Extracting Large-Scale Knowledge Bases from the Web -- Mining the Space of Graph Properties -- Discovering Test Set Regularities in Relational Domains (classification) -- Enhanced Hypertext Categorization Using Hyperlinks -- The Structure of Broad Topics on the Web -- Discovering Unexpected Information from Your Competitors' Web Sites -- On Integrating Catalogs -- Web Community Mining and Web Log Mi
Preliminaries.- HITS and Related Algorithms.- PageRank Related Algorithms.- Affinity and Co-Citation Analysis Approaches.- Building a Web Community.- Web Community Related Techniques.- Conclusions.
Chapter 1: Introduction (10 pages) -- Web Search, -- Information Filtering -- Web Community Chapter 2: Preliminaries (30 pages) -- Statistics -- Similarity -- Markov Model -- Matrix Expression of Hyperlinks -- Eigenvector, Principle Engenvector, Secondary Engenvector -- Singular Value Decomposition (SVD) of Matrix -- Graph Theory Basis (Random walk) Chapter 3: HITS and Related Algorithms (50 pages) -- The Original HITS -- The Stability issues -- The Randomized HITS -- The Subspace HITS -- Weighted HITS -- Vector Space Model (VSM) -- Cover Density Ranking (CDR) -- The In-depth Analysis of the HITS -- HITS Improvement (a significant improvement to clever algorithm) -- Noise Page Elimination Algorithm Based on SVD -- The PHITS algorithm (probabilistic HITS) -- SALSA (Stochastic algorithm) -- Random Walks and the Kleinberg Algorithm Chapter 4: PageRank Related Algorithms (50 pages) -- The Original PageRank -- Probability Combination of Link and Content Information in PageRank -- Topic-Sensitve PageRank -- Search-Order: Breadth-First, Backlink, Random -- Quadratic Extrapolation -- Exporing the Block Structure of the Web for Computing PageRank -- Second Eignevalue of the Google Matrix -- A Latent Linkage Information (LLI) Algorithm -- WebPage Scoring Systems (WPSS) -- Rank Aggregation -- Random Suffer Method -- Voting Model -- SimRank (graph-based) -- When Experts Agree: Using Non-Affliated Experts to Rank Popular Topics -- PageRank, HITS and a Unified Framework for Link Analysis Chapter 5: Web Classification and Clustering (50 pages) -- Web Document Similarity Measurement -- Web Document Classification Based on Hyperlinks and Document Semantics -- Clustering Hypertext with Applications to Web Search -- Link-based Clustering to Improve Web Search Results -- Measure Similarity of Interest for Clustering Web-Users -- Clustering of Web Users Using Session-based Similarity Measures -- Scalable Techniques for Clustering the Web -- Clustering web surfers with mixtures of hidden Markov Models -- Clustering User Queries of a Search Engine -- Using Web Structure for Classifying and Describing Web Pages -- Matrix-Based Hierarchical Clustering Algorithms Chapter 6: Web Log/Content Mining for Web Community (50 pages) -- Cut-and-Pick Transactions for Proxy Log Mining -- Mining Web Logs to Improve Website Organization -- Extracting Large-Scale Knowledge Bases from the Web -- Mining the Space of Graph Properties -- Discovering Test Set Regularities in Relational Domains (classification) -- Enhanced Hypertext Categorization Using Hyperlinks -- The Structure of Broad Topics on the Web -- Discovering Unexpected Information from Your Competitors' Web Sites -- On Integrating Catalogs -- Web Community Mining and Web Log Mi
Preliminaries.- HITS and Related Algorithms.- PageRank Related Algorithms.- Affinity and Co-Citation Analysis Approaches.- Building a Web Community.- Web Community Related Techniques.- Conclusions.
Rezensionen
"The book can be used by applied mathematicians, search industry professionals, and anyone who wants to learn more about how search engines work. I recommend it for any course on Web information retrieval. I firmly believe that this book and the book by Langville and Meyer are the top two books about the algorithmic aspects of modern search engines." -- Yannis Manolopoulos, Aristotle University, Thessaloniki, Greece in ACM REVIEWS
The book can be used by applied mathematicians, search industry professionals, and anyone who wants to learn more about how search engines work. I recommend it for any course on Web information retrieval. I firmly believe that this book and the book by Langville and Meyer are the top two books about the algorithmic aspects of modern search engines. (Yannis Manolopoulos, Aristotle University, Thessaloniki, Greece in ACM REVIEWS)
Es gelten unsere Allgemeinen Geschäftsbedingungen: www.buecher.de/agb
Impressum
www.buecher.de ist ein Internetauftritt der buecher.de internetstores GmbH
Geschäftsführung: Monica Sawhney | Roland Kölbl | Günter Hilger
Sitz der Gesellschaft: Batheyer Straße 115 - 117, 58099 Hagen
Postanschrift: Bürgermeister-Wegele-Str. 12, 86167 Augsburg
Amtsgericht Hagen HRB 13257
Steuernummer: 321/5800/1497
USt-IdNr: DE450055826
Wir verwenden Cookies und ähnliche Techniken, um unsere Website für Sie optimal zu gestalten und Ihr Nutzererlebnis fortlaufend zu verbessern. Ihre Einwilligung durch Klicken auf „Alle Cookies akzeptieren“ können Sie jederzeit widerrufen oder anpassen. Bei „Nur notwendige Cookies“ werden die eingesetzten Techniken, mit Ausnahme derer, die für den Betrieb der Seite unerlässlich sind, nicht aktiviert. Um mehr zu erfahren, lesen Sie bitte unsere Datenschutzerklärung.
Notwendige Cookies ermöglichen die Grundfunktionen einer Website (z. B. Seitennavigation). Sie können nicht deaktiviert werden, da eine technische Notwendigkeit besteht.
Dieser Service wird für die grundlegende technische Funktionalität von buecher.de benötigt.
Zweck: Notwendige
Dieser Service wird für die grundlegende technische Funktionalität von Google-Diensten wie z.B. reCaptcha benötigt.
Zweck: Notwendige
Dieser Service wird für die grundlegende technische Funktionalität von Klaro der Cookie-Zustimmung benötigt.
Zweck: Notwendige
Funktionale Cookies sorgen für ein komfortables Nutzererlebnis und speichern z. B. ob Sie eingeloggt bleiben möchten. Diese Arten von Cookies dienen der „Wiedererkennung“, wenn Sie unsere Website besuchen.
Dieser Service wird für die erweiterte Funktionalität von buecher.de verwendet.
Zweck: Funktionale
Dieser Service wird verwendet, um eine sichere Anmeldung bei Google-Diensten zu ermöglichen und Ihre Sitzung zu verwalten.
Zweck: Funktionale
Personalisierung ermöglicht es uns, Inhalte und Anzeigen basierend auf Ihren Interessen und Ihrem Verhalten anzupassen. Dies umfasst die Anpassung von Empfehlungen und anderen Inhalten, um Ihre Erfahrung auf unserer Website zu verbessern.
Dieser Service wird für die Personalisierung der Besucher von buecher.de verwendet.
Zweck: Personalisierung
Wir nutzen Marketing Cookies, um die Relevanz unserer Seiten und der darauf gezeigten Werbung für Sie zu erhöhen und auf Ihre Interessen abzustimmen. Zu diesem Zweck teilen wir die Daten auch mit Drittanbietern.
Dieser Service wird für die Personalisierung von Werbung auf buecher.de verwendet.
Zweck: Marketing
Dieser Service wird genutzt, um zu erfassen, ob Sie über einen Partner aus dem Adtraction-Netzwerk zu uns gelangt sind. Damit kann die Vermittlung korrekt nachvollzogen und abgerechnet werden.
Zweck: Marketing
Dieser Service wird genutzt, um nachzuvollziehen, über welche Partner-Website Sie zu uns gelangt sind. Dadurch können wir sicherstellen, dass Partner für vermittelte Verkäufe korrekt vergütet werden.
Zweck: Marketing
Dieser Service wird genutzt, um zu erfassen, ob Sie über das Preisvergleichsportal billiger.de zu uns gelangt sind. Damit kann die Vermittlung korrekt nachvollzogen und abgerechnet werden.
Zweck: Marketing
Bing ist ein Werbedienst von Microsoft, der es ermöglicht, Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Dieser Service wird genutzt, um personalisierte Produktempfehlungen und Werbung basierend auf Ihrem Surfverhalten bereitzustellen.
Zweck: Marketing
Dieser Service wird verwendet, um personalisierte Inhalte und Werbung auf Basis Ihres Nutzerverhaltens bereitzustellen. Taboola zeigt Ihnen Empfehlungen an, die für Sie relevant sein könnten, basierend auf zuvor angesehenen Inhalten.
Zweck: Marketing
Criteo ist ein Retargeting-Dienst, der es ermöglicht, personalisierte Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Facebook ist ein soziales Netzwerk, das es ermöglicht, mit anderen Nutzern zu kommunizieren und verschiedene Inhalte zu teilen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Getback ist ein Retargeting-Dienst, der es ermöglicht, personalisierte Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Google Ads ist ein Werbedienst von Google, der es ermöglicht, Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Google Analytics ist ein Webanalysedienst, der von Google zur Erhebung von Nutzungsdaten verwendet wird. Diese Daten ermöglichen uns, unsere Website zu optimieren und Ihnen den bestmöglichen Service zu bieten.
Zweck: Marketing
Dieser Service wird genutzt, um personalisierte Werbung anzuzeigen. Dadurch können wir Ihnen relevante Angebote und Empfehlungen bereitstellen.
Zweck: Marketing
Dieser Service wird genutzt, um personalisierte Inhalte und gesponserte Empfehlungen bereitzustellen, die auf Ihrem bisherigen Nutzungsverhalten basieren.
Zweck: Marketing
RTB House ist ein Retargeting-Dienst, der es ermöglicht, personalisierte Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Dieser Service wird genutzt, um nachvollziehen zu können, über welchen Partner Sie auf unsere Website gelangt sind. So kann die Vergütung von Partnern bei erfolgreichen Vermittlungen korrekt erfolgen.
Zweck: Marketing
Xandr ist ein Werbedienst von AT&T, der es ermöglicht, Werbung auf anderen Websites anzuzeigen. Dabei können personenbezogene Daten wie Nutzungsdaten verarbeitet werden.
Zweck: Marketing
Mit diesem Schalter können Sie alle Dienste aktivieren oder deaktivieren.