Gianluca Demartini, Ph.D.
School of Information Technology and Electrical Engineering,
University of Queensland
St Lucia
QLD 4072 Australia
Office: +61 7 336 58325
demartini@acm.org
Dr. Gianluca Demartini is an Associate Professor in Data Science at the University of Queensland, School of Electrical Engineering and Computer Science. His main research interests are Information Retrieval, Semantic Web, and Human Computation. His research has been supported by the Australian Research Council (ARC), the Swiss National Science Foundation (SNSF), the EU H2020 framework program, the UK Engineering and Physical Sciences Research Council (EPSRC), Facebook, Google, and the Wikimedia Foundation. He received Best Paper Awards at the ACM SIGIR International Conference on the Theory of Information Retrieval (ICTIR) in 2023, AAAI Conference on Human Computation and Crowdsourcing (HCOMP) in 2018 and at the European Conference on Information Retrieval (ECIR) in 2016, the Best Short Paper Award at ECIR in 2020 and the Best Demo Award at the International Semantic Web Conference (ISWC) in 2011. He has published more than 200 peer-reviewed scientific publications including papers at major venues such as WWW, ACM SIGIR, VLDBJ, ISWC, and ACM CHI. He has given several invited talks, tutorials, and keynotes at a number of academic conferences (e.g., ISWC, ICWSM, WebScience, and the RuSSIR Summer School), companies (e.g., Facebook), and Dagstuhl seminars. He is a senior member of the ACM since 2020, an ACM Distinguished Speaker since 2015, and has been a TEDx speaker in 2019. He serves as associate editor for the Transactions on Graph Data and Knowledge (TGDK) Journal and as an editorial board member for the Information Retrieval journal. He is a steering committee member for the AAAI HCOMP conference. He was PC Chair for the ACM Conference on Research and Development in Information Retrieval (SIGIR) in 2022. He was General co-Chair for the ACM International Conference on Information and Knowledge Management (CIKM) 2021. He was Crowdsourcing and Human Computation Track co-Chair at WWW 2018 and co-chair for the Human Computation and Crowdsourcing Track at ESWC 2015. He has been Senior Program Committee member for, among others, the ACM Conference on Research and Development in Information Retrieval (SIGIR), the ACM Web Search and Data Mining (WSDM) Conference, the International Joint Conference on Artificial Intelligence (IJCAI), the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), and the International Conference on Web Engineering (ICWE). He co-organized several workshops and tutorials at international conferences as well as the Entity Ranking Track at the Initiative for the Evaluation of XML Retrieval in 2008 and 2009. Before joining the University of Queensland, he was Lecturer at the University of Sheffield in UK, post-doctoral researcher at the eXascale Infolab at the University of Fribourg in Switzerland, visiting researcher at UC Berkeley, junior researcher at the L3S Research Center in Germany, and intern at Yahoo! Research in Spain. In 2011, he obtained a Ph.D. in Computer Science at the Leibniz University of Hanover focusing on Semantic Search.
UNA METRICA DI VALUTAZIONE
PER L'INFORMATION RETRIEVAL:
ANALISI
CRITICA E SPERIMENTAZIONI
Tesi in formato pdf (scaricata 3023 volte da luglio 2011)
Questa tesi ha l'obiettivo di valutare concettualmente e sperimentalmente una nuova metrica per l'efficienza dei sistemi per il reperimento delle informazioni. In questo capitolo viene dapprima introdotto l'argomento delle metriche di valutazione (paragrafo 1.1), vengono poi delineati gli obiettivi (paragrafo 1.2) ed infine viene presentata la struttura della tesi (paragrafo 1.3).
1.1 Le metriche di valutazione per il reperimento delle informazioni.
Il campo del Reperimento delle Informazioni (RI) ha avuto notevoli sviluppi negli ultimi anni, anche e soprattutto in conseguenza del clamoroso successo di internet. Si sono quindi sviluppati e consolidati diversi Sistemi per il Reperimento delle Informazioni (SRI) sul web, come ad esempio Google [24]. Diventa perciò molto importante avere a disposizione degli strumenti per valutare l'efficacia degli SRI al fine di comprendere e confrontare tra loro i diversi SRI che sono stati prodotti.Nella letteratura scientifica sono state proposte numerose metriche per valutare l'efficacia degli SRI come vedremo nei prossimi capitoli, attualmente vi sono 45 metriche e quasi ogni anno, in occasione delle iniziative internazionali di valutazione, ne vengono proposte di nuove. Solamente nell'iniziativa INEX 2005 sono state proposte ed utilizzate 5 nuove metriche progettate appositamente per valutare il RI su documenti in formato XML. Questo fa comprendere come il campo della valutazione degli SRI sia, di questi tempi, un tema molto caldo per la comunità scientifica del RI.
Tra tutte le metriche presenti ne è stata definita una chiamata Average Distance Measure (ADM) che ha come caratteristica fondamentale, e si differenzia dalle altre per questo, il modo in cui considera il concetto di pertinenza, sia quella percepita dall'utente sia quella assegnata dall'SRI. ADM considera la pertinenza una misura nel continuo a differenza di molte metriche classiche che ritengono questa dimensione binaria [41].
Fino ad ora la metrica ADM è stata valutata solamente in modo parziale e, per questo motivo, non si capisce ancora appieno qual è il suo vero potenziale. Il motivo per cui non è facile valutare sperimentalmente l'efficacia di ADM è la mancanza di dati di pertinenza e di reperimento di tipo continuo. Per questo motivo è necessario effettuare delle approssimazioni e considerare il calcolo di ADM su giudizi di pertinenza e dati di reperimento di tipo binario o al più a categorie, e quindi comunque discreto. Sono a disposizione della comunità scientifica collezioni di test con giudizi di pertinenza a 3 o 4 livelli e dati di reperimento che danno informazioni solamente sull'ordinamento con cui i documenti sono stati reperiti e non una stima sull'effettiva pertinenza del singolo documento.
1.2 Obiettivi della tesi
In questa tesi si intende affrontare il problema della valutazione degli SRI analizzando ADM valutandone sperimentalmente la sua efficacia e confrontandola con le metriche correntemente usate in tutti gli ambiti di valutazione nel campo del RI. Si vuole fare ciò proponendo una metodologia standardizzata di confronto che sia possibile riutilizzare ogni volta che si vuole effettuare una valutazione sperimentale della metrica. Gli obiettivi di questa tesi sono dunque:* effettuare un'analisi critica di ADM collocandola in una classifficazione delle metriche proposte in letteratura basata sulle diverse definizioni possibili di pertinenza e di reperimento;
* effettuare delle valutazioni sperimentali sull'efficacia della metrica ADM al fine di comprendere meglio le sue prestazioni;
* proporre una metodologia standardizzata che può essere adottata nuovamente per ogni collezione di test su cui si desidera valutare l'efficacia di ADM;
* dopo aver compreso meglio le caratteristiche e le peculiarità della metrica ADM si vuole proporre una sua estensione che si adatti meglio al reperimento di documenti XML. Alcuni dei risultati ottenuti nella tesi sono stati raccolti nei due lavori [15, 18] sottoposti per la pubblicazione al convegno 28th European Conference on Information Retrieval (ECIR06) [19].
1.3 Struttura della tesi
Questa tesi è strutturata in due parti. La prima descrive alcuni concetti fondamentali come il concetto di SRI, la pertinenza e il processo di valutazione, presenta le caratteristiche delle metriche presenti in letteratura, effettua alcune considerazioni sull'efficacia delle metriche e descrive ADM. La seconda parte presenta una classificazione originale, assente in letteratura, delle metriche di valutazione, descrive e discute i risultati ottenuti dalle sperimentazioni su ADM, definisce ed utilizza nelle sperimentazioni le curve ADP/ADR, che sono l'analogo delle curve Precision/Recall utilizzando concetti di pertinenza e reperimento continui, valuta e confronta sperimentalmente il tasso d'errore della metrica ADM, che indica quanto stabile è la metrica, e definisce e valuta preliminarmente una possibile estensione di ADM nel caso di pertinenza a due dimensioni quali l'esaustività e la specificità. In particolare nel capitolo 2 viene data una definizione di cosa si intende per SRI, si definisce il concetto di pertinenza e si descrive il processo di valutazione di un SRI. In questo capitolo viene inoltre descritto come il processo di valutazione viene messo in opera in diverse iniziative internazionali di valutazione.Nel capitolo 3 vengono descritte le 45 metriche proposte finora in letteratura, suddivise in metriche classiche, metriche orientate all'utente, metriche alternative alle precedenti e metriche per la valutazione del reperimento di documenti XML. Sono trattate anche le metriche adottate nell'iniziativa di valutazione INEX 2005 (tutt'ora in corso di svolgimento), proposte pochi mesi fa.
Nel capitolo 4 vengono descritti alcuni concetti che permettono di valutare l'efficacia delle metriche di valutazione e che sono necessari per effettuare un'analisi critica delle metriche di valutazione. Vengono definiti i concetti di sensitività e specificità mostrando come delle nozioni del campo dell'Informatica Medica siano analoghi ai concetti utilizzati nel campo del RI. Viene poi illustrato un metodo per valutare la stabilità delle metriche di valutazione calcolando il tasso d'errore commesso nel definire un SRI migliore rispetto ad un altro. Infine vengono discussi dei modelli di distribuzione dei valori di pertinenza nelle collezioni di documenti utilizzate per valutare l'efficacia degli SRI.
Nel capitolo 5 viene definita formalmente la metrica ADM e vengono presentati i risultati delle prime valutazioni sperimentali fatte su ADM su due diverse collezioni di test.
La seconda parte, in cui sono presentati e discussi i risultati ottenuti, inizia con il capitolo 6, nel quale vengono richiamati i concetti definiti nella prima parte della tesi e descritti gli obiettivi e la metodologia utilizzata per le valutazioni sperimentali di ADM.
Nel capitolo 7 viene proposta una classificazione originale delle 45 metriche di valutazione basata sulla nozione di pertinenza (se e quanto un documento è pertinente) e di reperimento (se e quanto un documento è reperito) che le metriche utilizzano, per comprendere meglio il potenziale di ADM;
Nei tre capitoli successivi vengono presentati i risultati delle diverse sperimentazioni effettuate utilizzando tre diverse collezioni di test. I risultati vengono analizzati e discussi per effettuare un'analisi critica della metrica ADM. Nel capitolo 8 viene usata la collezione di test TREC8 unitamente ai giudizi di pertinenza su 4 livelli effettuate da Sormunen [52]. Nel capitolo 9 viene usata la collezione di test TREC13 TeraByte. Viene inoltre calcolato il tasso d'errore delle metriche utilizzando la medesima collezione di test. Nel capitolo 10 vengono descritti i problemi riscontrati nell'utilizzo della metrica ADM per valutare l'efficacia degli SRI partecipanti all'iniziativa INEX 2004. Viene quindi definita una possibile estensione della metrica ADM ed effettuata una valutazione sperimentale preliminare di questa metrica.
Il capitolo 11, infine, conclude la tesi riassumendo il lavoro svolto e delineando i possibili sviluppi futuri.
1 Introduzione
1.1 Le metriche di valutazione per il reperimento
delle informazioni
1.2 Obiettivi della tesi
1.3 Struttura
della tesi
I Prerequisiti
2 La valutazione dei sistemi per il
reperimento delle informazioni
2.1 I Sistemi per il Reperimento
delle Informazioni
2.2 La Pertinenza
2.2.1 Pertinenza binaria
2.2.2
Pertinenza non binaria
2.3 Il processo di valutazione
2.3.1
Ricostruzione storica della valutazione
2.3.2 Esecuzione
automatica di valutazioni
2.3.3 Esecuzione non automatica di
valutazioni
2.4 Le iniziative internazionali di valutazione
2.4.1
Text REtrieval Conference (TREC)
2.4.2 NII-NACSIS Test Collection
for IR Systems (NTCIR)
2.4.3 Initiative for the Evaluation of XML
Retrieval (INEX)
2.4.4 Cross-Language Evaluation Forum (CLEF)
2.5
Conclusioni
3 Le metriche di valutazione
3.1 Le metriche
classiche
3.1.1 Precision e Recall
3.1.2 Fallout, Generality
Factor, Classification Accuracy, E-measure
3.1.3 Curve
Precision/Recall e Precision at N
3.1.4 Average Precision,
R-Precision
3.2 Le metriche orientate all'utente
3.3 Le
misure alternative
3.3.1 Expected Search Length, Normalized Recall
e Precision, bpref
3.3.2 Sliding Ratio, Satisfaction, Frustration,
Total
3.3.3 Relative Relevance, Ranked Half-Life
3.3.4 NDPM,
Usefulness, ASL
3.3.5 Discounted Cumulative Gain
3.3.6
Average Weighted Precision, Weighted R-Precision, Q-Measure e R-Measure
3.4
Le metriche per documenti XML
3.4.1 Tolerance to Irrelevance,
Expected Ratio of Relevant Documents
3.4.2 Normalized eXtended
Cumulative Gain, MAnxCG, Effort-Precision
3.5 Conclusioni
4
La valutazione dell'efficacia delle metriche 39
4.1
Sensitività e specificità
4.2 Ipotesi debole e forte
4.3
La stabilità delle misure
4.4 I modelli di distribuzione
degli score dei documenti
4.5 Conclusioni
5 Una nuova
metrica: Average Distance Measure
5.1 La definizione di ADM
5.2
Estensioni di ADM
5.2.1 ADM@N e QADM
5.2.2 Average Distance
Precision e Average Distance Recall
5.2.3 Curve ADP/ADR
5.3
Le valutazioni sperimentali su ADM
5.3.1 Le valutazioni sulla
collezione TREC8
5.3.2 Le valutazioni sulla collezione NTCIR
5.4
Conclusioni
II Risultati
6 Gli obiettivi delle
sperimentazioni e la metodologia utilizzata
6.1 I concetti
fondamentali
6.2 Gli obiettivi delle valutazioni
6.3 La
metodologia utilizzata per le valutazioni
6.4 Conclusioni
7
Una nuova classifcazione delle metriche di valutazione
7.1 I
criteri di classifcazione
7.2 La classifcazione delle metriche
7.3
Conclusioni
8 Le valutazioni sperimentali su TREC8
8.1
L'esperimento
8.2 I risultati
8.3 Discussioni sui
risultati
8.4 Conclusioni
9 Le valutazioni sperimentali su
TREC13 TeraByte
9.1 L'esperimento ed i risultati
9.2
Discussioni dei risultati
9.3 Il tasso d'errore
9.4
Conclusioni
10 Le valutazioni sperimentali su INEX 2004
10.1
L'iniziativa INEX 2004
10.2 Un'estensione di ADM su due
dimensioni di URS
10.3 Una prima valutazione sperimentale
10.4
Conclusioni
11 Conclusioni e sviluppi futuri
11.1 Il lavoro
svolto
11.2 Sviluppi futuri
Ringraziamenti
Bibliografia