Modelo vetorial em sistemas de recuperação da informação

Predefinição:Manutenção/Categorizando por assunto

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

Isso é feito através do assinalamento de pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos. Termos são ocorrências únicas nos documentos. Os documentos devolvidos como resultado para uma consulta são representados similarmente, ou seja, o vetor resultado para uma consulta é montado através de um cálculo de similaridade. Aos termos das consultas e documentos são atribuídos pesos que especificam o tamanho e a direção de seu vetor de representação. Ao ângulo formado por estes vetores dá-se o nome de $q$ . O termo $cos(q)$ determina a proximidade da ocorrência. O cálculo da similaridade é baseado neste ângulo entre os vetores que representam o documento e a consulta, através da seguinte fórmula [Salton (1988)].

Os pesos quantificam a relevância de cada termo para as consultas ( $W_{iq}$ ) e para os documentos ( $W_{id}$ ) no espaço vetorial. Para o cálculo dos pesos $W_{iq}$ e $W_{id}$ , utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando o conceito de freqüência de um termo num documento. Se uma coleção possui $N$ documentos e $n_{ti}$ é a quantidade de documentos que possuem o termo $ti$ , então o inverso da freqüência do termo na coleção, ou idf (inverse documento frequency) é dado por:

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: Wid = freq(ti,d) x idfi , ou seja, é o produto da freqüência do termo no documento pelo inverso da freqüência do termo na coleção. As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

O modelo de espaço vetorial representa consultas e documentos como vetores em um espaço t-dimensional. Cada dimensão desse espaço é associado com um dos termos da coleção. Para isso, associa-se a cada termo k_i um vetor k_i. Esses vetores de termos são considerados como ortogonais, i.e, $i\neq j\Longrightarrow {\vec {k}}_{i}\bullet {\vec {k}}_{j}=0$

Isso implica que se considera que os termos da coleção ocorrem de forma independente nos documentos e consultas. Além disso, o modelo de espaço vetorial assinala pesos positivos e não binários para termos nas consultas e documentos. Para calcular tais pesos, um método comum é tentar balancear a importância intra-documento dos termos(relativo a outras palavras em um mesmo documento) com a importância inter-documento dos termos (relativa a outras palavras em outros documentos). Isso pode ser definido como segue.

Seja N o número total de documentos em uma coleção, n_i o número de documentos onde o termo k_i ocorre, e freq_{ij} a freqüência do termo k_i no documento d_j. O fator freq_ij quantifica a importância do termo k_i no documento d_j e é usualmente classificada como o fator de freqüência do termo (tf). O fator $\log {\frac {N}{n_{i}}}$ quantifica a importância do termo $k_{i}$ como um fator de discriminação para toda a coleção de documentos e é conhecido como o fator de {\em freqüência inversa do documento}~({\sf idf}).