Intrinsic Semantic Spaces for the representation of documents and semantic annotated data

Lastra Díaz, Juan José

Intrinsic Semantic Spaces for the representation of documents and semantic annotated data

Lastra Díaz, Juan José. (2014). Intrinsic Semantic Spaces for the representation of documents and semantic annotated data Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your old.e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
LastraJuan_TFM.pdf			LastraJuan_TFM.pdf		application/pdf	1.43MB

Título	Intrinsic Semantic Spaces for the representation of documents and semantic annotated data
Autor(es)	Lastra Díaz, Juan José
Resumen	Esta tésis presenta dos nuevos espacios de representación semántica para doc- umentos de texto y datos anotados semánticamente, los cuales se basan en un en- foque de geometría intrínseca, así como otros resultados, entre los cuales tenemos: una nueva distancia semántica sobre ontologías denominada distancia ponderada de Jiang-Conrath, una distribución normal generalizada sobre variades diferenciables que denominamos distribución normal geodésica, la cual nos conduce a la denición de la distancia geodésica de Mahalanobis. Por último, probamos que cualquier clasi- cador de Bayes sobre una variedad induce un diagrama de Voronoi dual sobre su dominio. El modelo de recuperación de la información (RI) basado en ontologías parece prometedor, a pesar de aún no haber sido evaluado experimentalmente. Por otro lado, el clasicador de texto ha arrojado un primer resultado desesperanzador debido a ciertas dicultades en el entrenamiento del modelo. El hilo conductor de nuestra investigación es el uso de nociones de geometría diferencial e invarianza geométrica como medio para cubrir algunas oprtunidades de mejora y problemas encontrados en los modelos actuales encontrados en la bib- liografía. Tanto el modelo RI basado en ontologías, como el clasicador de texto propuestos en esta tésis, son inspirados por un enfoque geométrico, cuya principal idea es la integración de las estructuras geométricas del problema en los espacios de representación semántica de la información. En suma, nuestro enfoque intenta construir mejores modelos de espacios semánticos mediante la incorporación de las propiedades y restricciones de los objetos matemáticos involucrados en su denición. La primera parte de la tésis presenta un nuevo modelo RI basado en ontologías que dene una inmersión de una ontología poblada en un espacio métrico, la cual es denominada Espacios Intrínsecos Ontológicos y tiene como principal propiedad la preservación de las estructuras codicadas en las ontologías. En la segunda parte, presentamos un nuevo clasicador de documentos de texto, denominado Clasicador Intrínseco de Bayes-Voronoi, el cual se basa en la representación de los vectores de documento mediante un modelo generativo expresado sobre una variedad diferen- ciable, cuya función de distribución es denida sobre la hiperesfera unitaria, en vez de sobre el espacio euclídeo ambiente. Los Espacios Intrínsecos Ontológicos introducen un nuevo modelo téorico de recuperación de la información que parece prometedor, si bien, como ya hemos señalado, éste aún no ha sido evaluado experimentalmente. El modelo propuesto es descrito en profundidad y validado con respecto a nuestros axiomas de diseño. La motivación detrás de nuestro modelo es el descubrimiento de un conjunto de inconsistencias geométricas en algunos modelos RI basados en ontologías, las cuales se derivan de ciertas propiedades pasadas por alto en sus adaptaciones del modelo de espacio vectorial (VSM). En esencia, nuestro modelo refuta el uso irreexivo del modelo VSM en toda clase de tareas semánticas en el ámbito del procesamiento natural del lenguaje. A pesar de que el enfoque teórico es intersante por sí mismo, nuestra principal hipótesis es que el enfoque invariante que proponemos en el modelo, debería con- ducirnos a mejorar la calidad de clasicación, así como las medidas de precisión y cobertura en los sistemas de recuperación de información de tipo semántico. Los Espacios Intrínsecos Ontológicos son, hasta donde alcanza nuestro conoci- miento, el primer modelo de recuperación de la información basado en ontologías donde cada componente del sistema ha sido diseñado basado en la ontología base para preservar todas las estructuras intrínsecas presentes. La geometría intrínseca de una ontología es denida por tres estructuras algebraicas: (1) la relación de orden de la taxonomía, (2) la relación de inclusión de conjuntos, y (3) su métrica semántica intrínseca. De esta forma, los métodos para la representación de las consultas, unid- ades de información, funciones de pesado, clasicación por relevancia y recuperación, han sido diseñados a partir de axiomas fundamentados en principios geométricos, con el objetivo de capturar todo el conocimiento codicado en la ontología base. Empleando el lenguaje de la teoría de categorías, nuestro modelo construye una equivalencia natural, o morsmo, entre la ontología poblada de entrada y el espacio de representación para las unidades de información indexadas. Finally, ell clasicador de Bayes-Voronoi, introducido en la segunda parte de la tésis, emplea un modelo generativo para representar documentos de texto, el cual es denido por una distribución normal vectorial sobre la hiperesfera unitaria, la cual denominamos distribución normal geodésica. Dicha distribución es denida sobre la hiperesfera unitaria, vista como una variedad diferenciable, en vez de sobre el espacio euclídeo ambiente. La idea clave es la observación de que los vectores normalizados están contenidos en la hiperesfera unitaria, en de vez de sobre el espacio euclídeo am- biente, y el modelo propuesto integra de forma explícita dicha propiedad. El modelo reduce una unidad la dimensión de los vectores normalizados, la cual corresponde a la proyección de los vectores de datos sobre la hiperesfera unitaria (normalización). Asimismo, la distribución normal geodésica nos conduce a la denición de la dis- tancia de Mahalanobis sobre una variedad diferenciable, distancia que denominamos distancia geodésica de Mahalanobis. Por último, probamos que cualquier clasicador de Bayes sobre una variedad induce un diagrama de Voronoi dual sobre su dominio.
Abstract	This thesis introduces two novel semantic representation spaces for text documents and semantically annotated data, which are based in an intrinsic geometry approach, as well as other results, among which we have: (1) a novel ontology-based semantic distance, that we call weighted Jiang-Conrath, and (2) generalized normal distri- bution on di¤erential manifolds, called geodesic normal distribution, what lead us to the denition of the geodesic Mahalanobis distance. By last, we prove that any Bayes classier on a manifold denes a dual Voronoi diagram on it. The ontology-based IR model looks promising, but it has not been evaluated experimentally yet. By other hand, the text document classier yielded a rst discouraging result due to the di¢ culties for the training of the model. The common thread of our research is the use of notions of intrinsic di¤erential geometry and geometric invariance, as means to bridge some gaps in the literature. The ontology-based IR model, as well as the text classier proposed in this thesis, is inspired by a geometric approach, whose core idea is the integration of the geometric structures of the problem in the semantic representation spaces of the information. In summary, our approach attempts to build better models of semantic spaces by incorporating the properties and constraints of the mathematical objects involved in its denition. The rst part of the thesis introduces a novel ontology-based IR model based in a structure-preserving embedding of a populated ontology into a metric space that we call Intrinsic Ontological Spaces. The second part of the thesis introduces a novel text classier, called Intrinsic Bayes-Voronoi, which is based in the representation of the document vectors by a manifold-based generative model, where the distribution function is dened on the unit hypersphere, instead of the euclidean ambient space. The Intrinsic Ontological Spaces introduces a novel theoretical IR model that looks promising, although it has not even been evaluated experimentally. The pro- posed IR model is described in depth and validated with regard to our design axioms. The motivation behind of our model is the nding of a set of geometric inconsist- encies in some ontology-based IR models in the literature, which are derived from certain overlooked properties in their adaptations of the Vector Space Model (VSM). In essence, our model refutes the unreective use of the VSM model in the elds of natural language processing (NLP) and information retrieval (IR). Despite that the theoretical approach is interesting by itself, our main hypothesis is that the structure-preserving approach proposed by our model, should lead us to improve the quality of the ranking, as well as the measures of precision and recall in the semantic information retrieval systems. The Intrinsic Ontological Spaces are, up to our knowledge, the rst ontology- based IR model to build a whole ontology-based structure-preserving representation for any sort of semantically annotated data in a populated ontology. In our model, every component has been designed with the aim to preserve the intrinsic geometry of any base ontology. The intrinsic geometry of any ontology is dened by three algebraic structures: (1) the order relation of the taxonomy, (2) the set inclusion relation, and (3) its intrinsic semantic metric. In this way, the methods for the representation of the queries, information units, weighting, ranking and retrieval, have been designed from geometric principled-based axioms, with the aim to capture all the semantic knowledge encoded in the base ontology. Using the language of the theory of categories, our model builds a natural equivalence, or morphism, among the input populated ontology and the representation space for the indexed information units. Finally, the classier of Bayes-Voronoi, introduced in the second part of the thesis, uses a manifold-based generative model to represent documents which is dened by a vector normal distribution on the unit hypershere, and we have called geodesic normal distribution. The distribution is dened on the unit hypershere, considered as a manifold, instead of the ambient space. The core idea is the ob- servation that the normalized vectors are dened on the unit hypersphere, instead of the whole euclidean ambient space, and the proposed model explicitly integrates this constraint. The model removes one dimension to the normalized vectors, which corresponds to the projection of the data vectors on the unit hypershere (normaliza- tion). The geodesic normal distribution lead us to the denition of the Mahalanobis distance on a di¤erential manifold, distance that we call geodesic Mahalanobis dis- tance. We also prove that any Bayes classier on a manifold denes a dual Voronoi diagram on it.
Notas adicionales	Trabajo Final de Máster Universitario en Lenguajes y Sistemas Informáticos. Especialidad de Tecnologías del lenguaje en la web. UNED
Materia(s)	Informática
Palabra clave	ontology-based IR models ontology-based semantic distances semantic information retrieval taxonomic semantic spaces vector semantic spaces semantic distances Jiang-Conrath distance valuation metrics geodesic Mahalanobis distance Hausdorff distance semantic metric spaces manifold-based distribution text classier
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor	García Serrano, Ana María
Fecha	2014-09-29
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-LSI-Jlastra http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-LSI-Jlastra
Idioma	eng
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Lenguajes y Sistemas Informáticos (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	233 Visitas, 85 Descargas - Estadísticas en detalle
Creado:	Fri, 08 Oct 2021, 22:46:00 CET

old.e-spacio

Intrinsic Semantic Spaces for the representation of documents and semantic annotated data