viernes, 4 de diciembre de 2009

Summarization: Evaluación de Técnicas de Resumen sobre Artículos Científicos



Resumen

Este trabajo tiene por objetivo evaluar diferentes técnicas de summarization (resumen automático de texto) para la generación de un corpus resumido sobre artículos cientificos. El fin perseguido es que los documentos pierdan la menor carga semántica posible, conservando su sentido original y reduciendo el tamaño de almacenamiento necesario para contener el corpus.
La intención de este experimento es encontrar una solución a la “sobrecarga de información” que dificulta la manipulación de la información disponible y hace indispensable poseer grandes volúmenes de hardware para poder procesarla.
Los métodos evaluados devolvieron resultados prometedores que hacen interesante la extensión de esta investigación, recurriendo a nuevos métodos de resumen y evaluación.


Palabras clave: resumen automático, reducción del corpus, sistemas de recuperación de información.


1. Introducción


Los grandes volúmenes de información disponibles en la actualidad en formato digital, generados por fenómenos como la web y la innovación en cuanto a la forma de expresión de la sociedad, han sido catapultantes directos para que se comience a dar mayor difusión e investigación a los Sistemas de Recuperación de Información que tienen por objetivo recuperar respuestas a las necesidades de información de los usuarios de forma rápida y precisa. Se puede mencionar rápidamente (estudios minuciosos sobre SRI se han desarrollado por ejemplo en [MIR] y [MAN]) de estos Sistemas que parten desde un corpus, que es un conjunto de documentos cuya temática puede ser homogenea o heterogenea, para luego pasar por un proceso de indexación con el fin de organizar los documentos sobre estructuras de datos de forma que sean computables con el objetivo de brindar un servicio de recuperación eficaz.
Los resúmenes, según [TOL] permiten caracterizar el contenido de un texto en una cantidad limitada de palabras u oraciones, de acuerdo a la necesidad y a la aplicación, modificando el procesamiento posterior que se requiere. Desde el punto de vista de la utilidad, los resúmenes permiten reducir el tiempo de procesamiento, los requisitos de almacenamiento y el tráfico de datos en las transferencias electrónicas.
La temática atacada en el presente trabajo se basa en evaluar la posible reducción del corpus de entrada al Sistema de Recuperación de Información con el fín de reducir los indices necesarios para contener la colección, dandole al sistema mayor escalabilidad y brindando a los profesionales la posibilidad de trabajar en la Recuperación de Información sin necesidad de recurrir a grandes unidades de hardware.
El gran desafio de las técnicas aplicadas para la summarization está en poder conservar la carga semántica de cada documento con el objetivo de no perder exhaustividad ni precision en las respuestas brindadas por el sistema, por lo tanto se considerará mas apropiada o mas apta para la tarea de summarization aquella técnica que permita reconocer con mayor nivel de claridad la idea principal del documento procesado.
Las técnicas de resumen utilizadas fueron extraidas de [TOL], se mencionan allí como las clásicas de este tipo de estudios, y son TF/ISF, Palabras Clave (a este método se aplicó una variante) y SIMTIT (Oración con mayor semejanza al Título del Texto).
La hipótesis de esta investigación se basa en suponer que un método de resumen eficaz conservará la idea principal del documento, permitiendo así al Sistema de Recuperación de Información, reconocer su relevancia frente a la necesidad de información del usuario conservando solo un resumen.
El resto del documento se encuentra dividido en las siguientes partes. A continuación, se presenta un trabajo relacionado al área de resumen automático que fue fundamental, como punto de partida, para la realización de esta experiencia junto con otros trabajos del área de Recuperación de Información ineludibles a la hora de abordar estos temas. En el apartado 3 se explican las técnicas de resumen utilizadas. Con posterioridad se describe la experiencia realizada y la forma en que se fueron resolviendo los desafios que aparecieron. Luego, se expresa una conclusión acerca de la experiencia y se proponen posibles trabajos futuros. Finalmente, se incluyó un anexo con la implementación en Perl de las técnicas de summarization utilizadas.



2. Trabajos Relacionados

El desarrollo de esta investigación se inició a partir de una linea de trabajo futuro propuesta por los autores Tolosa, Bordignon y Peri [TOL], que proponen la continuación de su experiencia a partir de la modificación de alguno de los algoritmos propuestos o el cambio de contexto en que se apliquen los algoritmos, ya que aquella fue realizada textos cortos correspondientes a noticias en español.
También se tuvo como referencia a reconocidos autores de esta área como Manning [MAN] y Baeza Yates [MIR] cuyos trabajos sirvieron como marco teórico general para esta investigación.



3. Métodos de Resumen utilizados

Para esta experiencia se utilizaron tres técnicas que pueden ser agrupadas según su fundamentación teórica.
Las técnicas TF/ISF y Palabras Clave, tienen su fundamentación en la frecuencia de aparición de los términos que componen las oraciones mientras que la técnica SIMTIT parte de la suposición de que el título, pese a ser corto como indicador de resumen, tiene un alto contenido semántico acerca del tema central del documento.
A continuación se exponen las formulas de estas técnicas y las observaciones sobre las modificaciones propuestas a éstas en los casos en que se hayan aplicado. En el Anexo I se incluye parte de las implementaciones de los algoritmos.
Como complemento, y a fín de eliminar el ruido en las ponderaciones aportado por las palabras vacías (palabras cuyo poder de discriminación del texto es muy bajo o nulo) fueron eliminadas para los cálculos.


3.1 TF/ISF
Esta técnica es una variante del método de ponderación para términos en Information Retrieval. Primero se ponderan los términos de cada frase y luego se realiza la sumatoria de los pesos de cada término por frase. Por último, según [TOL] en desacuerdo con Larroca, aquellas frases mas representativas del texto serán las que tengan menor peso.


La ponderación de los términos del documento se realiza a partir de:


donde,


P(w) = Peso de la palabra W.
F(W,O) = Frecuencia del término W en la oración O.
|O|d = Cantidad de oraciones O en el documento d.
DF(W) = Cantidad de oraciones en las cuales el término W ocurre.

Luego, por cada oración se hace la sumatoria del peso de sus términos normalizando por la cantidad de palabras que tiene cada oración para no distorsionar los resultados según la longitud de las mismas:



donde,
la sumatoria se aplica a todos los términos i de la oración O.
|W|o = Cantidad de términos W de la oración O.


3.2 Palabras Clave
Este método supone que los términos con mayor frecuencia son las palabras clave del documento. Por consiguiente, se calcula la frecuencia de cada uno de los términos que aparecen en el documento, las cuales ofician de peso de los mismos. Luego se realiza la sumatoria del peso de cada término por oración. Aquellas oraciones con mayor peso serán las que mejor identifiquen al documento.
Se define:


donde,
p(Wi) es la frecuencia en el texto de los terminos de la oración O.


A esta técnica se le aplicó una variante; con el fín de normalizar los pesos en aquellas frases de diferente longitud, se dividen los pesos obtenidos por oración por la cantidad de términos presentes en la misma.


3.3 SIMTIT (Oración con mayor semejanza al Título del Texto)
La técnica SIMTIT, como se dijo, parte de la suposición de que el título, pese a ser corto como indicador de resumen, tiene un alto contenido semántico acerca del tema central del documento. Partiendo del supuesto descripto, se calcula, mediante una métrica de semejanza, la similitud entre las frases del documento y el título del mismo. En esta experiencia se utilizó el coeficiente de DICE [TO2].




4. Trabajo Experimental

4.1. Datos de Prueba
La colección utilizada para la prueba está formada por 106 documentos técnicos que fueron presentados en CACIC (Congreso Argentino de Ciencias de la Computación) en 2004, cuya temática es compartida entre ellos y tiene que ver con la tecnología y las investigaciones dentro de este ambito.
El preprocesamiento de la colección fue común para todas las técnicas de summarization. Se normalizaron los caracteres llevándolos a minúsculas y luego se eliminaron las palabras vacías.
A continuación, se presentan algunas características de la colección, recogidas mediante un script en perl diseñado para tal fin:

  • Cantidad de documentos procesados: 106.
  • Cantidad de frases promedio por documento: 129.41.
  • Cantidad de terminos extraidos: 134788.
  • Promedio de terminos por documento: 1271.58.
  • Cantidad de terminos del documento mas corto (cacic2004-63_ok.txt): 551.
  • Cantidad de terminos del documento mas largo (cacic2004-210_ok.txt): 2322.
  • Cantidad promedio de la longitud de los terminos: 7.16.
  • Cantidad de terminos que aparecen una sola vez en la coleccion: 17396.
  • Cantidad de tokens extraidos: 116831.
  • Promedio de tokens por documento: 1102.17.
  • Catindad de tokens del documento mas corto (cacic2004-63_ok.txt): 468.
  • Cantidad de tokens del documento mas largo (cacic2004-210_ok.txt): 2007.


4.2 Desarrollo del experimento

4.2.1 Creación de las colecciones resumidas
Arbitrariamente, se aplicó sobre el corpus tres longitudes de resumen por cada una de las técnicas. Un primer resumen de 5 oraciones por documento, un segundo de 10 y el último de 20 oraciones. Las características principales de las nueve colecciones resultantes se presentan a continuación:


Método
Terminos extraidos
Terminos por documento
Tokens extraidos
Longitud promedio terminos
Terminos con frecuencia 1
PC-5
12662
119,45
9305
5,65
2895
TF/ISF-5
4804
45,32
3160
5,52
1241
SIMTIT-5
13960
131,69
10618
6,49
3148
PC-10
21402
203,82
16451
6,08
4277
TF/ISF-10
9622
90,77
6731
5,87
1981
SIMTIT-10
24260
228,86
19246
6,79
4577
PC-20
36858
347,71
29651
6,48
6291
TF/ISF-20
18966
178,92
14236
6,32
3192
SIMTIT-20
41249
389,14
33951
6,95
6567


Como se puede apreciar, algunas técnicas tienden a valorar mas las frases mas largas. También es importante aclarar que resulta llamativo el hecho de que la técnica de TF/ISF obtenga como resúmenes colecciones bastante mas pequeñas que las demás técnicas en cada una de las escalas. Esto puede deberse, en parte, al conflicto en la bibliografía acerca de su esquema de valoración y debiera evaluarse una revisión de la técnica como trabajo futuro.


4.2.2 Creación de las necesidades de información
A partir de la inspección de los temas tratados en los documentos se crearon 50 necesidades de información -querys- con el objetivo de poder probar las diferentes colecciones creadas. Las necesidades de información tienen entre 2 y 5 términos e intentan ser atinadas a los temas tratados en el corpus.


4.2.3 Creación de los pseudo-juicios de relevancia
A continuación se procedió a generar los juicios de relevancia con el fín de evaluar la respuesta de cada una de las colecciones resumidas a las necesidades de información creadas en el experimento.
El procedimiento para la creación de los pseudo-juicios de relevancia es el descripto a continuación:

  1. Se indexó la colección original haciendo uso de la herramienta Lemur [LEM] con tres técnicas de ponderación (TF*IDF, BM25 y KL Divergence).
  2. Se procedió a correr los querys sobre los indices resultantes de la aplicación de las tres técnicas de ponderación.
  3. Luego, a partir de un script realizado en perl para tal fin, se sumó para cada documento, el ranking obtenido en cada query. Se penalizaron los documentos que no aparecieron rankeados en alguna técnica de ponderación. Se ordenaron en forma ascendente los resultados obtenidos y se tomaron los 20 primeros resultados de cada query como documentos relevantes.
  4. El sentido del procedimiento explicado antes se basa en suponer que aquellos documentos que resultaran muy relevantes para los tres métodos de ponderación utilizados, serían efectivamente relevantes.


4.2.4 Procesamiento de las necesidades de información en las colecciones resumidas
A continuación se procesaron, también a partir de la herramienta Lemur, las 50 necesidades de información creadas a fin de evaluar las colecciones resumidas. Las colecciones resumidas se indexaron según el metodo de ponderación TF*IDF de la herramienta Lemur.


4.3 Resultados de la experiencia
Los resultados devueltos para cada una de las colecciones resumidas se procesaron mediante un script en perl creado para tal efecto, con el objetivo de ser compatibles con la herramienta trec_eval [TRE] a fin de evaluar los resultados obtenidos.
A continuación se presentan los datos obtenidos, diferenciando la prueba según las tres escalas de longitud de los resúmenes.


Resúmenes de 5 oraciones






TF/ISF
Palabras Clave
SIMTIT
#Querys
45
43
46
#Respuestas
899
1001
1289
#Relevantes
868
836
846
#Relevantes 
devueltos
275
314
418
MAP
0,2
0,25
0,33
R-Precision
0,21
0,26
0,35
P at R = 0
0,92
0,93
0,99
P at R = 0,1
0,78
0,85
0,87
P at R = 0,2
0,39
0,55
0,72
P at R = 0,3
0,19
0,35
0,53
P at R = 0,4
0,14
0,17
0,36
P at R = 0,5
0,1
0,14
0,3
P at R = 0,6
0,06
0,08
0,13
P at R = 0,7
0,03
0,06
0,07
P at R = 0,8
0,03
0,04
0,06
P at R = 0,9
0,02
0,03
0,04
P at R = 1
0,01
0,02
0,02
P@5
0,53
0,65
0,69
P@10
0,34
0,43
0,53
P@15
0,26
0,33
0,39
P@20
0,2
0,25
0,33




Gráfica de Recall y Precision de las tres técnicas de resumen


Resúmenes de 10 oraciones



TF/ISF
Palabras Clave
SIMTIT
#Querys
46
46
49
#Respuestas
1079
1205
1568
#Relevantes
873
881
894
#Relevantes devueltos
359
413
529
MAP
0,29
0,34
0,44
R-Precision
0,3
0,35
0,45
P at R = 0
0,97
0,99
1
P at R = 0,1
0,91
0,92
0,99
P at R = 0,2
0,65
0,77
0,92
P at R = 0,3
0,36
0,57
0,76
P at R = 0,4
0,25
0,36
0,57
P at R = 0,5
0,17
0,21
0,41
P at R = 0,6
0,12
0,15
0,25
P at R = 0,7
0,09
0,1
0,17
P at R = 0,8
0,05
0,05
0,09
P at R = 0,9
0,03
0,05
0,05
P at R = 1
0,02
0,03
0,03
P@5
0,67
0,77
0,83
P@10
0,47
0,56
0,63
P@15
0,37
0,43
0,5
P@20
0,29
0,34
0,41


 
Gráfica de Recall y Precision de las tres técnicas de resumen

Resúmenes de 20 oraciones



TF/ISF
Palabras Clave
SIMTIT
#Querys
48
47
50
#Respuestas
1345
1516
1885
#Relevantes
888
886
895
#Relevantes devueltos
474
547
653
MAP
0,41
0,48
0,59
R-Precision
0,4
0,48
0,57
P at R = 0
0,98
1
1
P at R = 0,1
0,97
1
1
P at R = 0,2
0,88
0,9
0,99
P at R = 0,3
0,6
0,78
0,95
P at R = 0,4
0,48
0,66
0,86
P at R = 0,5
0,34
0,55
0,69
P at R = 0,6
0,23
0,34
0,52
P at R = 0,7
0,16
0,2
0,32
P at R = 0,8
0,09
0,11
0,22
P at R = 0,9
0,05
0,06
0,15
P at R = 1
0,03
0,04
0,06
P@5
0,82
0,87
0,9
P@10
0,61
0,71
0,75
P@15
0,47
0,57
0,62
P@20
0,38
0,46
0,51


Gráfica de Recall y Precision de las tres técnicas de resumen


Comparativa entre SIMTIT con resúmenes de 20 oraciones y la colección original



Colección COMPLETA
SIMTIT
#Querys
50
50
#Respuestas
2755
1885
#Relevantes
895
895
#Relevantes devueltos
895
653
MAP
0,97
0,59
R-Precision
0,92
0,57
P at R = 0
1
1
P at R = 0,1
1
1
P at R = 0,2
1
0,99
P at R = 0,3
1
0,95
P at R = 0,4
1
0,86
P at R = 0,5
0,9952
0,69
P at R = 0,6
0,9888
0,52
P at R = 0,7
0,9796
0,32
P at R = 0,8
0,9594
0,22
P at R = 0,9
0,9336
0,15
P at R = 1
0,8237
0,06
P@5
0,9720
0,9
P@10
0,9280
0,75
P@15
0,8920
0,62
P@20
0,8180
0,51



Gráfica de Recall y Precision de la colección completa contra SIMTIT de 20 oraciones


4.4 Análisis de los resultados obtenidos
A partir de los resultados obtenidos puede verse, claramente, que al igual que en [TOL], la técnica que mejor aproxima la esencia de la colección es la de SIMTIT (Oración con mayor semejanza al Título del Texto) que, haciendo uso de parte de la estructura del texto -el título-, presenta una precisión, en lineas generales, aceptable o buena.
Como era de esperarse, a medida que el tamaño de los resúmenes crece, el nivel de precision y exhaustividad lo hace también, casi proporcionalmente, encontrandose los mejores resultados para los resúmenes mas extensos.
Resulta oportuno aclarar que aún utilizando la colección con resúmenes mas extensos (de 20 oraciones) y, partiendo de la base de que un documento en la colección original rondaba las 129 oraciones, se estaría utilizando una colección que tendría un tamaño del 20/129 = 15,5% de la colección original, con lo cual se potencian los resultados obtenidos en la evaluación de costo-beneficio.
Esta ecuación de costo-beneficio tendría como costo la perdida de exhaustividad y precisión y como beneficios, claros e ineludibles, la compresión de los indices, la reducción en el tiempo de procesamiento, la minimización de los requisitos de almacenamiento y la disminución del tráfico de datos en las transferencias electrónicas.
Como última apreciación, debe mostrarse que, al menos el Sistema de Recuperación de Información utilizado, no tiene dificultades en recuperar documentos precisos en los niveles de exhaustividad iniciales, propiedad que pierde conforme se va avanzando en estos niveles de exhaustividad. Este defecto se va corrigiendo a medida que la longitud de los resúmenes crece.



5. Conclusiones y Trabajos Futuros

Como ya se ha mencionado en el desarrollo de este trabajo, las técnicas de resumen vienen a aportar una posible solución a los problemas de escalabilidad y de sobrecarga de información generados en la actualidad a partir de fenomenos mencionados, como la web y la tendencia a una forma de expresarse digital.
En esta experiencia, se tomaron tres métodos de generación de resúmenes de la literatura tradicional de Information Retrieval y se intentó demostrar que un resumen de cada documento de la colección de entrada, puede ser un buen indicador de la esencia de dicho texto siempre y cuando las técnicas desarrolladas puedan retener lo mas importante de los mismos.
Pudo verse a partir de las pruebas que hay técnicas que demuestran conservar de mejor forma la esencia de los documentos, y sus resultados se muestran prometedores en la evolución de esta herramienta como forma de contrarrestar la problemática planteada al comienzo de esta conclusión.
En particular, la técnica SIMTIT (Oración con mayor semejanza al Título del Texto) demostró que es capaz de conservar el sentido original de los documentos mostrando una precisión aceptable y creciente conforme lo hace el tamaño de los resúmenes.
Esto, sumado a que los resúmenes mas extensos solo representaron el 15% de la colección original, a que no se realizó stemming (técnica que podría mejorar la exhaustividad) y a que no se realizo una poda de los términos menos comunes según Luhn [LUH], hace pensar que los resultados pueden mejorar con la combinación de estas variantes.
Se considera fuera del alcance de esta investigación pero se deja abierta para el estudio, la inclusión en una experiencia similar de técnicas de stemming que permitan mejorar la exhaustividad en los resultados. Otro punto a desarrollar será la busqueda de técnicas de resúmenes no aplicadas en esta experiencia como así también la revisión de la técnica TF/ISF ya que resulta llamativa la diferencia en la extensión de los resúmenes en comparativa con las otras dos técnicas.
Otro punto interesante a inspeccionar será la aplicación de esta metodología de trabajo sobre colecciones mas heterogeneas ya que se utilizó para este articulo una colección, como se describió, homogenea; aunque se vislumbra que los resultados obtenidos con colecciones heterogeneas no será muy dispar del conseguido en este trabajo.
Por último, en esta experiencia se establecieron, arbitrariamente, resúmenes de 5, 10 y 20 oraciones por lo que queda también, como trabajo futuro la busqueda de aquel tamaño de resumen que pueda aportar la relación mas satisfactoria de costo-beneficio entre tamaño de la colección y precisión-exhaustividad.


6. Bibliografía

  • [TOL] Tolosa, G. H..; Peri, Jorge A. y Bordignon, Fernando R. A, “Experimentos con Métodos de Extracción de la Idea Principal de un Texto sobre una Colección de Noticias Periodísticas en Español ”, 2005.
  • [TO2] Gabriel H. Tolosa y Fernando R.A. Bordignon, “Introducción a la Recuperación de Información”, 2007.
  • [MIR] Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.
  • [MAN] Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze “An Introduction to Information Retrieval ”, 2009.
  • [LUH] Luhn, H.P., “The automatic creation of literature abstracts”. IBM Journal of Research and Development, 2, 1pags. 59-165. 1958.
  • [LEM] The Lemur Toolkit for Language Modeling and Information Retrieval, www.lemurproject.org.
  • [TRE] Text REtrieval Conference (TREC) trec_eval 9.0, http://trec.nist.gov/trec_eval/.


Anexo I: Implementación de las técnicas en Perl

A continuación se presentan los fragmentos mas importantes de una implementación en Perl de las técnicas de summarization utilizadas en la experiencia.


Fragmento del código en Perl de la técnica de TF/ISF
Siendo la estructura de datos:
$TokensxFrase{$frase}{$token} = $frecuencia_de_token_en_la_oracion

$cantidad_oraciones_del_texto = $#sentences;
# Se calculan la cantidad de frases en que aparece cada token y su frecuencia en el documento
my %CantidadTerminos = ();
my %FrecuenciaEnTexto = ();
for $frase (sort keys %TokensxFrase ) {
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$FrecuenciaEnTexto{$token}++; # Cantidad de oraciones en las que aparece el token
$CantidadTerminos{$frase}++; # Cantidad de terminos por frase
} }
# Se calcula el peso de cada termino en la oracion
my %Peso = ();
for $frase (sort keys %TokensxFrase ) {
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$Peso{$frase}{$token} += $TokensxFrase{$frase}{$token} * log($cantidad_oraciones_del_texto/$FrecuenciaEnTexto{$token});
} }
# Se calcula el score de cada oracion
my %Score = ();
for $frase (sort keys %Peso ) {
$Score{$frase} = 0;
for $token (sort keys %{ $Peso{$frase} } ) {
$Score{$frase} += $Peso{$frase}{$token};
}
$Score{$frase} = $Score{$frase}/$CantidadTerminos{$frase};
}


Fragmento del código en Perl de la técnica de Palabras Clave
Siendo la estructura de datos:
$TokensxFrase{$frase}{$token} = $frecuencia_de_token_en_la_oracion;

$Frecuencia{$token} = $frecuencia;

# Contamos la cantidad de palabras por frase -PARA NORMALIZAR-
for $frase (sort keys %TokensxFrase ) {
$c = 0;
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$c++;
}
$Palabras{$frase} = $c;
my %Score = ();
# Se calculan las frases con mayor score y se normaliza por cantidad de palabras de la frase
for $frase (sort keys %TokensxFrase ) {
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$Score{$frase} = $Score{$frase} + $TokensxFrase{$frase}{$token} * $Frecuencia{$token};
}
$Score{$frase} = $Score{$frase}/$Palabras{$frase};
}


Fragmento del código en Perl de la técnica SIMTIT
Siendo la estructura de datos:
$TokensxFrase{$frase}{$token} = $frecuencia_de_token_en_la_oracion;

# Se calcula la sumatoria de las frecuencias al cuadrado de los terminos
my %SumatoriaCuadrados = ();
for $frase (sort keys %TokensxFrase ) {
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$SumatoriaCuadrados{$frase} += $TokensxFrase{$frase}{$token} * $TokensxFrase{$frase}{$token}
}
}

#Se calcula el coeficiente de dice entre el titulo $frase = 0 y las demas $frases
my %Score = ();
for $frase (sort keys %TokensxFrase ) {
$Score{$frase} = 0;
for $token (sort keys %{ $TokensxFrase{$frase} } ) {
$Score{$frase} += $TokensxFrase{$frase}{$token} * $TokensxFrase{0}{$token};
}
$Score{$frase} = (2 * $Score{$frase}) / ($SumatoriaCuadrados{$frase} + $SumatoriaCuadrados{0});
}