Volume 18 : Number 2 : Paper 2

August 2015 Best Papers from CLEI 2014 Special Issue
Title:
Applying Information Retrieval Techniques to Detect Duplicates and to Rank References in the Preliminary Phases of Systematic Literature Reviews

Authors and Affiliations:
Ramon Abilio, IT Department - Federal University of Lavras, Lavras, MG, Brazil, 37200-000
Flávio Morais, IT Department - Federal University of Lavras, Lavras, MG, Brazil, 37200-000
Gustavo Vale, Department of Computer Science - Federal University of Minas Gerais, Belo Horizonte, MG, Brazil, 31270-010
Claudiane Oliveira, Department of Computer Science - Federal University of Lavras, Lavras, MG, Brazil, 37200-000
Denilson Pereira, Department of Computer Science - Federal University of Lavras, Lavras, MG, Brazil, 37200-000
Heitor Costa, Department of Computer Science - Federal University of Lavras, Lavras, MG, Brazil, 37200-000

Abstract:
Systematic Literature Review (SLR) is a means to synthesize relevant and high quality studies related to a specific topic or research questions. In the Primary Selection stage of an SLR, the selection of studies is usually performed manually by reading title, abstract and keywords of each study. In the last years, the number of published scientific studies has grown increasing the effort to perform this sort of reviews. In this paper, we proposed strategies to detect non-papers and duplicated references in results exported by search engines, and strategies to rank the references in decreasing order of importance for an SLR, regarding the terms in the search string. These strategies are based on Information Retrieval techniques. We implemented the strategies and carried out an experimental evaluation of their applicability using two real datasets. As results, the strategy to detect non-papers presented 100% of precision and 50% of recall; the strategy to detect duplicates detected more duplicates than the manual inspection; and one of the strategies to rank relevant references presented 50% of precision and 80% of recall. Therefore, the results show that the proposed strategies can minimize the effort in the Primary Selection stage of an SLR.

Portuguese Abstract:
Revisão Sistemática de Literatura (RSL) é um meio para sintetizar estudos relevantes e de alta qualidade relacionados a um tópico especifico ou a questões de pesquisa. No estágio de Seleção Primária de uma RSL, os estudos são selecionados, geralmente, de forma manual pela leitura do título, do resumo e das palavras-chave. Nos últimos anos, o número de estudos científicos publicados tem crescido aumentando o esforço na realização desse tipo revisão. Neste trabalho, foram propostas estratégias para detectar não-artigos e referências duplicadas em resultados exportados por máquinas de busca, e estratégias para ranquear referências em ordem decrescente de importância para uma RSL considerando os termos da string de busca. Essas estratégias são baseadas em técnicas de Recuperação de Informação. As estratégias propostas foram implementadas e foram conduzidas avaliações experimentais para verificar suas aplicabilidades utilizando dois conjuntos de dados reais. Como resultados, a estratégia de detecção de não-artigos apresentou uma precisão de 100% e uma revocação de 50%; a estratégia de detecção de duplicatas apontou mais duplicatas que a inspeção manual; e uma das estratégias para ranqueamento de referências relevantes apresentou precisão de 50% e 80% de revocação. Portanto, os resultados mostram que as estratégias propostas podem minizar o esforço no estágio da Seleção Primária de uma RSL.

DOI: http://dx.doi.org/10.19153/cleiej.18.2.2

Keywords:
Systematic Literature Review; Information Retrieval; Vector Model; Primary Selection

Portuguese Keywords:
Revisão Sistemática de Literatura; Recuperação de Informação; Modelo Vetorial; Seleção Primária

Received 2014-11-11, Revised 2015-04-07 , Editor: Jose Aguilar, Hernán Astudillo, Javier Baliosian, Héctor Cancela, Sergio España, Ernesto Ocampo, Martín Solari, Paula Zabala
Full paper, 24 pages [ PDF, 411 Kb ]