I modelli Information Retrieval. Boolean, Vector e Probabilistic; Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space. Valutazione del Retrieval. Query language: Keyword-Based, Context, Boolean e Natural Language Queries. Pattern Matching. Structural Queries. Query Protocols. Operazioni su query: User Relevance Feedback, Query Expansion e Term Reweighting. Standard di rappresentazione dei documenti e metadati. Sistemi di indicizzazione.
Libri di testo:
R. Baeza-Yates, B. Ribeiro-Neto, “Modern Information Retrieval” Addison Wesley
Obiettivi Formativi
Conoscenze:
Il corso si propone di fornire le principali conoscenze sui modelli di Information Retrieval. Particolare enfasi viene data alle tecniche di ricerca dell’informazione sul Web, alla costruzione di motori di ricerca, alle tecniche di raccolta e indicizzazione dell’informazione, infine agli standard di rappresentazione dei documenti.
Competenze acquisite
Comprensione dei modelli di retrieval e ranking delle informazioni sul Web.
Conoscenza dei linguaggi XML di rappresentazione dell'informazione.
Conoscenza dei modelli di indicizzazione dei documenti.
Capacità acquisite al termine del corso:
Misure di rilevanza dell'informazione rispetto ai bisogni informativi degli utenti.
Introduzione all'utilizzo di standard documentali orientati al Web Semantico.
Metodi Didattici
Numero di ore totali del corso: 150
Numero di ore per studio personale e altre attività formative di tipo individuale: 102
Numero di ore relative alle attività in aula: 48
Altre Informazioni
Orario di ricevimento
Su appuntamento, da richiedere per email
Modalità di verifica apprendimento
Modalità:
Orale.
Programma del corso
Introduzione
Motivazioni. Concetti base. Il processo di Retrieval.
Modellazione
I modelli di Information Retrieval (IR). Tipi di Retrieval. Caratterizzazione formale dei modelli IR.
IR classica: concetti base, Boolean Model, Vector Model, Probabilistic Model. Confronto fra modelli. Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space, Neural Networks.
Valutazione del Retrieval
Misure di valutazione del Retrieval: Precision e Recall. Misure alternative.
Query Language
Keyword-Based Querying, Single-Word Queries, Context Queries, Boolean Queries, Natural Language Query. Pattern Matching. Structural Queries. Query Protocols.
Operazioni su query
User Relevance Feedback. Query Expansion e Term Reweighting per il Vector Model. Term Reweighting per il Probabilistic Model. Automatic Local Analysis: Query Expansion Through Local Clustering. Query Expansion Through Local Context Analysis. Automatic Global Analysis: Query Expansion basata su un Thesaurus di similarita’, Query Expansion basata su un Thesaurus statistico.
Linguaggi di rappresentazione dei contenuti
Metadati. Testo: formati, teoria dell’informazione, modellazione del linguaggio naturale, modelli di similarita’. Linguaggi di markup: SGML, HTML, XML.
Operazioni sul testo
Analisi dei documenti: analisi lessicale, stopwords, stemming, selezione dei termini per l’indicizzazione, thesauri. Clustering di documenti. Compressione del testo.
Indicizzazione e Ricerca
Inverted files. Altre modalita’ di indicizzazione. Boolean Queries. Sequential searching. Pattern Matching. Structural Queries. Compressione.
IR distribuita
Caso di studio: Il Progetto NIR. Standard XML e URN. Applicazioni.
Ricerca dell’infomazione sul Web
Caratterizzazione del Web. Motori di ricerca. Browsing. Metamotori. Web Query Languages e Software Agents.