Saltar al contenido principal

Applications of Deep Learning in Natural Language Processing for Information Extraction on German Language Documents

Registro bibliográfico

  • Título: Applications of Deep Learning in Natural Language Processing for Information Extraction on German Language Documents
  • Autor: Cabrera Granados, Miguel Fernando
  • Publicación original: 2014
  • Descripción física: PDF
  • Nota general:
    • Abstract:
      The success of machine learning algorithms depends on the representation of the data used. Specific domain knowledge can be used to design good representations. However, these representations are limited to a specific problem or task, and to the amount of available labeled data. Another approach is to automatically learn generic priors that can be used in different tasks and context.
      In the field of natural language processing, recent work has been done in obtaining such priors by learning useful vector representation of words from unlabeled data. The representations can then be used to improve existing natural language processing systems.
      These word vectors are obtained using special neural network architectures trained on billions of tokens. However, most of these models are learned and evaluated on English language corpora.
      In this work, Word2vec, a recent neural network based toolkit for learning word representations is used on German language data. The goal is to evaluate the learned representations of words in different language processing and information retrieval tasks.
      In particular, a semantic-syntactic evaluation set is constructed for the German language. In addition to that, the learned word vector representations are used as features for a classifier of German language business documents. The learned features outperformed existing handcrafted features and performed similar to other state-of-the-art approaches.
      Resumen:
      El éxito de los algoritmos de aprendizaje automático depende de la representación de los datos utilizados. conocimiento de dominio específico se puede utilizar para diseñar buenas representaciones. SIN EMBARGO, representaciones de síntesis se limitan a un problema o tarea específica, y que la cantidad de datos disponibles etiquetados.
      Otro enfoque es aprender automáticamente priores genéricos hizo kann utilizado en diferentes tareas y el contexto. En el campo del procesamiento del lenguaje natural, los trabajos recientes se ha hecho en la obtención de distribuciones previas examinados por el aprendizaje de la representación vector útil de las palabras de datos no etiquetados.
      Las representaciones a continuación, se pueden utilizar para mejorar el sistema de procesamiento de lenguaje natural existente. Estos vectores de palabras se obtienen utilizando arquitecturas de redes neuronales especiales entrenados en miles de millones de fichas. Sin embargo la mayoría de los modelos de síntesis se aprenden y se evalúa el corpus idioma Inglés.
      En este trabajo, Word2vec, un conjunto de herramientas basadas red neuronal reciente para el aprendizaje de representación de palabra se utiliza en los datos de idioma alemán. El objetivo es evaluar las representaciones aprendido de palabras en diferentes tareas de procesamiento del lenguaje y la recuperación de información.
      En particular, una evaluación semántico-sintáctica conjunto se construye para el idioma alemán. Además de eso, las representaciones vectoriales de palabras aprendidas se utilizan como características para un clasificador de documentos comerciales idioma alemán. Las características aprendidas superaron características artesanales existentes y funcionando de modo similar a otros enfoques del estado de la técnica.
  • Notas de reproducción original: Digitalización realizada por la Biblioteca Virtual del Banco de la República (Colombia)
  • Notas:
    • Resumen: Machine learning; Deep learning; Natural language processing; Word vectors; Aprendizaje automático; Aprendizaje de máquinas; Procesamiento del lenguage natural
    • © Derechos reservados Colfuturo
    • Colfuturo
  • Forma/género: tesis
  • Idioma: inglés
  • Institución origen: Biblioteca Virtual del Banco de la República
  • Encabezamiento de materia:
Applications of Deep Learning in Natural Language Processing for Information Extraction on German Language Documents | Biblioteca Virtual Miguel de Cervantes Ampliar imagen

Digitalización realizada por la Biblioteca Virtual del Banco de la República (Colombia)

Citar obra

Datos enlazados

RDF de esta obra

La Biblioteca Virtual Miguel de Cervantes publica su catálogo como datos abiertos a través del vocabulario Resource Description and Access (RDA) en data.cervantesvirtual.com