Los límites del traductor de Google en español

Claves para obtener un buen posicionamiento web

14 de octubre de 2013

Publicidad de pago por clic

8 de noviembre de 2013

Publicado por Infomeik en 15 de octubre de 2013

[:es]

Su capacidad de mejorar es cada vez menor y busca un sistema revolucionario para evitar sus sonoros errores

El traductor de Google (Google Translate) es una herramienta demasiado cómoda como para no usarla; aunque no hace falta ser filólogo para detectar errores de bulto, incongruencias y disparates, por no hablar del fino hilo que da sentido, tono y emoción a las palabras, frases y párrafos bien interpretados. ¿Por qué no acierta más? ¿Por qué Google habla un español raro (peor catalán y aún peor chino, y con diferente acierto en cada uno de los 71 idiomas que comprende)? ¿Ha tocado techo la calidad traducción automática? La respuesta es que ya no queda tanto margen de mejora y busca sin parar implementar el sistema para ganar calidad.

A las máquinas se les dan bien los número, no las letras

Google no traduce palabra por palabra, no sigue reglas gramaticales ni sintácticas, porque las excepciones a la regla, y las excepciones a las excepciones en cada uno de los idiomas haría inviable la herramienta. Google Translate, por el contrario, sigue latraducción automática estadística (la propulsó IBM en los noventa, pero GT es un desarrollo avanzado). Consiste en extraer patrones estadísticos a través de las probabilidades obtenidas tras analizar textos ya interpretados por traductores humanos profesionales.

La compañía de Mountain View, por ejemplo, ha confesado el análisis sistemático de los textos traducidos a diferentes idiomas por la ONU y la Unión Europea. La conversión, por tanto, consiste en reproducir las palabras en función de la probabilidad que hay de que la combinación se repita en el otro idioma (las llamadas tablas de frases). A las máquinas se les dan bien los números, no las letras; y esta es la forma de que entiendan una lengua.

Analizar traducciones humanas

El ideal consiste en que cuantos más textos analice, mejor será el patrón estadístico y mejor será por tanto la traducción. Aunque, en realidad, el margen de mejora que queda es escaso. Según confesó un entonces trabajador de Google Translate a «The Guardian», cada vez que Google duplica el número de textos analizados, solo mejora su acierto con suerte en un 0,5%. Y no se puede doblar hasta el infinito por mucho que la compañía no tenga rival en recorrer textos por internet.

Además, esto técnica solo da resultado en los idiomas que tienen un volumen de textos significativos para hacer una traducción directa entre un par de lenguas. Por ejemplo, Google no traduce directamente del inglés al catalán, sino que traduce del inglés al español y luego al catalán; entre las dos traducciones se multiplica el porcentaje de error. Igual ocurre con muchos otros pares, como el ucraniano con el inglés, que previamente tiene que pasar por el ruso. La empresa reconoce esa necesidad de mejora en cuanto proporciona una herramienta de participación para depurar las traducción, el Translator Toolkit.

Porcentaje de acierto

No existen muchas investigaciones externas sobre la exactitud de las traducciones de Google. Uno reciente (de 2013) ha sido elaborado por la Agencia para la Investigación y la Calidad del Cuidado de la Salud, del Gobierno de Estados Unidos. El organismo realizó un estudio para dar un porcentaje a la calidad de las traducciones de Google en comparación con traducciones profesionales en estudios médicos, del inglés al chino, al francés, al alemán, al japonés y al español. El estudio se hace sobre datos concretos extraídos del texto, no sobre el sentido del texto en su conjunto.

El resultado da un porcentaje de acierto global mayor del 76% en el 78% de los datos en español, similar al francés (74%) y superior al alemán (70%) y al japonés (67%). En chino, el porcentaje de acierto menor del 50% es del 22% de los datos, el peor de todos. La conclusión del estudio es que la traducción está lejos de la perfección y el «riesgo de ocasionar errores es muy alto». Y eso que ocurre entre pares de idiomas con traducción directa. En definitiva, no es perfecto. Y por eso Google busca un sistema mejorado.

Buscando un nuevo sistema

El equipo de investigación del gigante tecnológico acaba de hacer público un sistema que pretende completar al actual, y llevarlo a nuevas cotas de acierto. En lugar de analizar los textos contando las filas de palabras y extrayendo probabilidades, crea un mapa de palabras en un solo idioma (ver ejemplo debajo). Los vectores a partir de la distribución en el mapa se pueden reproducir en cualquier otra lengua. La traducción, por tanto, depende entonces del lugar que ocupe en el eje. El sistema, además, permite automatizar el aprendizaje.

Ejemplo del mapa de palabras

Según sus autores, la calidad de la traducción entre el español y el inglés alcanza el 90% (del inglés al vietnamita se quedaría en el 30%). Aunque, como concluyen los investigadores, «claramente, todavía hay mucho que explorar». Por eso Google abrió en agosto la herramientaword2vec, un software diseñado para entender las relaciones entre palabras sin una guía humana, para que investigadores de todo el mundo sumen esfuerzos a la gran tarea del idioma en la aldea global.

Este estudio es el más reciente y con mayor publicidad, pero son continuas las líneas de investigación. Google cuenta con varias áreas de estudio dedicadas a la traducción y la relación lenguaje humano-máquina: traducción mecánica, procesamiento del discurso,procesamiento del lenguaje natural

La idea futurista final, ya anunciada, es crear el traductor universal, hablar por un auricular en un idioma y recibirlo en otra lengua al otro lado del teléfono. Sin olvidar la necesidad de Google de entender todos los textos que recorre, para analizar el caudal de información y, finalmente, colocar anuncios relacionados, al fin y al cabo la fuente de su negocio. Google no es la única compañía explorando el campo. Microsoft, la china Baidu, Ersatz y AlchemyAPItambién buscan analizar el lenguaje mediante técnicas de aprendizaje automático. Y ya comienza a ser cada vez más real el asistente virtual para que lamáquina entienda la voz de su dueño.

traductor google

Fuente.

[:en]

Its ability to improve is decreasing and it seeks a revolutionary system to avoid its sound errors

The Google translator (Google Translate) is a tool too comfortable as to not use it; although it does not have to be a philologist to detect blunders, inconsistencies, and absurdities, not to speak of the fine thread that gives meaning, tone and emotion to the words, sentences and paragraphs are well interpreted. Why not hit more? Why Does Google speak a rare Spanish (worse Catalan and even worse Chinese, and with different success in each of the 71 languages it understands)? Has the quality machine translation been roofed? The answer is that there is no longer so much room for improvement and is constantly seeking to implement the system in order to gain quality.

Machines are given numbers well, not letters

Google does not translate word for word, does not follow grammatical or syntactic rules, because exceptions to the rule, and exceptions to exceptions in each of the languages would make the tool unworkable. Google Translate, by contrast, continues to the translation machine (the propelled IBM in the nineties, but GT is an advanced development). It consists in extracting statistical patterns through the probabilities obtained after analyzing texts already interpreted by professional human translators.

The Mountain View company, for example, has confessed to the systematic analysis of the texts translated into different languages by the UN and the European Union. The conversion, therefore, consists in reproducing the words according to the probability that the combination is repeated in the other language (the so-called phrase tables). Machines are good with numbers, not letters.; and this is how they understand a language.

analyse human translations

The ideal is that the more texts you analyze, the better the statistical pattern will be and the better the translation will be. Although, in reality, there is little room for improvement left. As she told a then employee of Google Translate to «The Guardian», each time Google doubles the number of texts analyzed, only improves your success with luck at 0.5%. And you can’t bend to Infinity, no matter how much the company doesn’t have a rival in Internet texts.

Moreover, this technique only results in languages that have a significant volume of texts to make a direct translation between a couple of languages. For example, Google does not translate directly from English to Catalan, but translates from English to Spanish and then into Catalan; between the two translations the error rate is multiplied. The same applies to many other pairs, such as Ukrainian and English, which have previously to pass through Russian. The company recognizes the need for improvement in terms of providing a tool of participation to debug the translation, the Translator Toolkit.

success rate

There are not many external investigations into the accuracy of Google translations. One recent (2013) has been prepared by the Agency for Research and Quality Health Care, the Government of the united States. The agency conducted a study to give a percentage to the quality of the translations of Google in comparison with professional translations in the medical studies, from English to chinese, French, German, japanese and Spanish. The study is done on specific data extracted from the text, not on the meaning of the text as a whole.

The result gives an overall success rate of more than 76% in 78% of data in Spanish, similar to French (74%) and higher than German (70%) and Japanese (67%). In Chinese, the success rate of less than 50% is 22% of the data, the worst of all. The conclusion of the study is that translation is far from perfection and the «risk of causing errors is very high». And that happens between pairs of languages with direct translation. In short, it’s not perfect. And that’s why Google is looking for an improved system.

looking for a new system

The technological giant’s research team has just released a system that aims to complete the current, and bring it to new heights of success. Instead of analyzing texts by counting word rows and extracting probabilities, create a word map in a single language (see example below). The vectors from the distribution on the map can be reproduced in any other language. The translation therefore depends on the place it occupies on the axis. The system also allows automate learning.

word map example

According to their authors, the quality of the Spanish-English translation reaches 90% (from English to Vietnamese it would remain at 30%). Although, as the researchers conclude, » clearly, there is still much to explore.» That’s why Google opened the tool word2vec, a software designed to understand the relationships between words without a human guide, for researchers from all over the world to join forces with the great task of language in the global village.

This study is the most recent and highly publicized, but the lines of research are continuous. Google has several areas of study devoted to translation and the human-machine language relationship: mechanical translation, processing of the speech,natural language processing

The ultimate futuristic idea, already announced, is to create the universal translator, to speak by an earphone in one language and to receive it in another language on the other side of the phone. Without forgetting Google’s need to understand all the texts it travels, to analyze the flow of information and finally place related ads, after all the source of your business. Google is not the only company exploring the field. Microsoft, China Baidu, Ersatz and AlchemyAPIalso seek to analyze the language through automatic learning techniques. And the virtual Wizard is beginning to become more and more real so that the

translator google

source.

[:]