Me asaltan, eso sí, muchas dudas sobre cómo los hacen. Por ejemplo, cómo quitan las preposiciones, artículos, y todas esas palabras (en inglés se llaman stopwords) que no tienen casi contenido semántico sino que están para que cuadre la gramática del asunto. Incluso salen muchos más sustantivos que otra cosa, uno que otro verbo, y pocos adjetivos.
Por otro lado, hay que reconocer que no sale por ahí mi diosito, ¿no?
La pregunta boba que yo hago apelaez se curo en salud poniendo grandisimo las intrucciones de manejo "clic en las imagenes".
Pero las preguntas bobas son mi fuerte: ¿cierto que no es solo un conteo de palabras?, ¿eso tiene inteligencia para darle importancia a las palabras?
Inteligencia lo puse sin comillas porque en ese tema en mi ignorante opinion han avanzado muchisimo, ya practicamente es inteligencia (por ejemplo los filtros antispam).
Lanark: Le puede echar diente en www.wordle.com, yo creo que tiene un léxico con las palabras frecuentes que deben sacarse pero no sé.
Juandaví: no se si tenga inteligencia, lo que es claro es que saca las palabras frecuentemente usadas en el español, lo que lanark explica. El resto es puras frecuencias de palabras en el texto.
si, de la metrópoli, porque yo no había entendido bien de qué se trataba, pensé que era un proyecto de alguien de artes. Ahora si, me parece bacano el dibujito.
Me parecia como autoexplicativo y por eso no le incluí texto, pero venga la explicación: Tomé los dos discursos de posesión de Uribe (en el 2002 y en el 2006) y los metí en wordle que, en sus palabras, es: "Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text."
Y bueno, ahí esta el resultado. Supongo que si Uribe lo reeligen el tercer discurso quien sabe q palabras resaltaría
Que desilusión, de verdad yo pense que el programa tenia inteligencia para el significado, pero no.
Lo que si hace con inteligencia es la forma del dibujo.
Apelaez, mira esto, ahi el autor esta mostrando que Word no le corrije la ortografia a su nombre pero google si, google cuando escribe mal su nombre le sugiere el bueno.
"A very senior Microsoft developer who moved to Google told me that Google works and thinks at a higher level of abstraction than Microsoft. "Google uses Bayesian filtering the way Microsoft uses the if statement," he said. That's true..." "Look at how Google does spell checking: it's not based on dictionaries; it's based on word usage statistics of the entire Internet, which is why Google knows how to correct my name, misspelled, and Microsoft Word doesn't". Eso lo saque de www.joelonsoftware.com
Que pena pues, pero otra cosita sobre porque creo que la inteligencia en los programas a avanzado mucho. Esta pagina donde muestran robots que no se dejan tumbar y se adaptan a la superficie para caminar. (Esos robots son hechos por una empresa pequeñita, no es samsung o nada de eso, es una empresa pequeña de uno de esos genios de la USA).
NOTA: Lo ultimo que opino de inteligencia informatica, en google deberian quitar ese traductor tan pelle que tienen en la pagina, semejante buscador tan teso con ese traductor tan absurdamente pichurrio.
oh! inteligencia artificial!! a mi me parece una contradicción en los término, juandaví. Por otro lado, los traductores todos todos son peyes, porque traducen palabra por palabra, no por frases o ideas. así que pongan el traductor que pongan para a ser así.
Lo que hace el programa es mas bien sencillo; sólo cuenta cuántas veces aparecen las palabras. Los métodos más sofisticados comparan las frecuencias relativas de las palabras entre grupos de documentos (como Google) y otros más sofisticados, que no han visto la luz todavía en aplicaciones masivas, examinan el entorno en el que aparecen las palabras. Yo, de hecho, estoy trabajando en uno de estos últimos.
Los traductores no se han desarrollado, yo creo, por dos razones principales: una, es que no son tan buen negocio como las búsquedas en sí mismas (son apenas un apéndice poco importante de eso) y otra, es que su aplicación indiscriminada y competente provocaría problemas legales de propiedad sobre los contenidos.
Hay traductores tremendamente sofisticados, programados sobre todo en Rusia por alguna razón, pero son carísimos, requieren bastante información y una buena capacidad de cómputo. Yo sospecho que uno no podría distinguir entre el trabajo de uno de esos y un traductor de documentos legales, por ejemplo. Con un traductor bueno de poesía, eso sí, no hay caso, los programas siempre la tienen perdida.
Los pequeños algoritmos incluídos en páginas web son sencillitos y bastante malos, incluído BabelFish.
Algo que se parece, pero no es lo mismo, son aplicaciones de búsqueda en varios lenguajes a la vez, que están todavía en desarrollo, pero ya dan resultados verdaderamente impresionantes a nivel de prototipo. A la burocracia de la Comunidad Europea le encanta promover cosas así.
Juan David: Hacer una traducción y mantenerse en pie son dos tipos de problemas bastante diferentes. El primero tiene una complejidad abstracta tremenda y una implementación sencilla, y el segundo, en cambio, tiene una teoría sencilla en comparación y deriva toda su dificultad de la implementación concreta, es decir, de controlar las partes mecánicas y obtener información de los sensores suficientemente rápido.
Sobre Google y Word, es cierto: la diferencia es impresionante. Pero hay que tomar en cuenta que el algoritmo de Google está repartiendo el texto de millones de páginas web en decenas de miles de computadores para su procesamiento simultáneo, mientras que Word sólo un programa mal hecho que utiliza una fracción pequeña de la capacidad de un computador para funcionar, y el resto para que a otros programas les cueste usar el formato de los documentos y para que Microsoft pueda chequear las licencias a cada rato.
Por otro lado, es cierto que todos los procesadores de texto que conozco usan una lógica booleana muy sencillita para sugerir cambios (lo que llaman el "if"). He visto prototipos de aplicaciones mas sofisticadas, pero no conozco editores mucho mas poderosos en sus capacidades lingüísticas.
Mil disculpas por tanta carreta, pero es que cuando me pican para hablar de esas cosas...
Nada de carreta Lanark, yo quedo mas agradecido que un berraco con tu explicacionsita, a mi me gusta oir de ese tema, gracias. Acerca de si Apelaez se enoja porque le cojan de parche el blog pues no creo, porque el dijo que este era un blog punkero, punk not dead.
Oi Margarita, lo de la contradiccion en los terminos yo siempre pense lo mismo, pero de un tiempo hacia aca pienso que si han avanzado mucho. Seria bueno que Lanark hablara todavia mas de eso.
Cómo avanzan estas vainas. En los noventa trabajé en un grupo de investigación en lingüística que se llamaba Cratilo (el diálogo platónico sobre el significado de las palabras). Primero escaneábamos una novela (en mi caso, "Los días azules", de Fernando Vallejo), página por página; después tardábamos semanas en borrar los sapos, culebras y caracteres raros tipo #$%&&$#%& que salían en la escaneada en máquinas tan precarias. Nos demorábamos después meses en meter las palabras de una novela al programa y el programa se demoraba otro tanto en generar matrices con la frecuencia de las palabras. En listas, no en dibujitos de nube. Qué risa.
Cratilo también se llamaba el programa que hacía eso a paso de tortuga, desarrollado por un profesor de Filosofía de la Universidad de Antioquia y gracias al cual cosechó elogios de toda la comunidad humanística del Alma Máter. Hay que recordar que se imprimían las listas en impresoras de matriz de punto durante taaaaardes enteras. Y ahora uno dice que no tiene tiempo de nada...
Camilo: Yo creo que por ahi el 70% de la lingüística computacional de corpus que se hace hoy en día, no difiere demasiado en la parte fundamental de la que se hacía en los 80s y 90s; ha cambiado, eso sí, en dos cosas: los juguetes que se pueden usar ahora, desde luego, y la información acumulada usando esos juguetes. Y también creo que la teoría hubiera podido avanzar muchísimo mas en ese tiempo si no hubiera habido pocos tan aventados como el filósofo de la UdeA, o incluso otros más aventados que hicieran teoría aunque todavía no se pudiera aplicar.
En todo caso, habla muy bien de los humanistas de la de Antioquia que hayan tenido elogios hacia ese esfuerzo y no pánico irracional o indignación como se ha visto en otros lados. Me imagino que la imagen de Pierre Bourdieu perforando tarjetas un par de décadas antes ayudó a preparar el terreno para que los humanistas acepten esas cosas.
(Del dim. de macho).
1. m. Arma blanca, más corta que la espada, ancha, pesada y de un solo filo.
2. m. Cuchillo grande que sirve para desmontar, cortar la caña de azúcar y otros usos.
3. m. coloq. Arg. y Col. chuleta (‖ apunte para usarlo disimuladamente en los exámenes).
4. m. Cuba. Máquina usada en las fábricas de cigarros para cortar el tabaco que se ha de convertir en hebras.
5. m. Nic. trabajo (‖ ocupación retribuida).
6. m. Ur. Persona avara y mezquina. U. t. c. adj.
7. m. Ven. Hombre eficaz o capaz en alguna actividad en la que demuestra arrojo y decisión. U. t. c. adj.
8. m. Ven. Cosa buena o positiva. U. t. c. adj
19 comentarios:
¡Muy chéveres, esas nubes!
Me asaltan, eso sí, muchas dudas sobre cómo los hacen. Por ejemplo, cómo quitan las preposiciones, artículos, y todas esas palabras (en inglés se llaman stopwords) que no tienen casi contenido semántico sino que están para que cuadre la gramática del asunto. Incluso salen muchos más sustantivos que otra cosa, uno que otro verbo, y pocos adjetivos.
Por otro lado, hay que reconocer que no sale por ahí mi diosito, ¿no?
La pregunta boba que yo hago apelaez se curo en salud poniendo grandisimo las intrucciones de manejo "clic en las imagenes".
Pero las preguntas bobas son mi
fuerte: ¿cierto que no es solo un conteo de palabras?, ¿eso tiene inteligencia para darle importancia a las palabras?
Inteligencia lo puse sin comillas porque en ese tema en mi ignorante opinion han avanzado muchisimo, ya practicamente es inteligencia (por ejemplo los filtros antispam).
Lanark: Le puede echar diente en www.wordle.com, yo creo que tiene un léxico con las palabras frecuentes que deben sacarse pero no sé.
Juandaví: no se si tenga inteligencia, lo que es claro es que saca las palabras frecuentemente usadas en el español, lo que lanark explica. El resto es puras frecuencias de palabras en el texto.
me parece muy bueno tu blog, primera vez que lo frecuento..
La verdad no comento sobre el post porque no me abrieron las imagenes.. puedes colocar el link directo a las imagenes?
Eso de las palabras más utilizadas es fascinante. ¡Hola, carrot! Extraño tus posts burlones, estos están demasiado sofisticados y capitalinos.
si, de la metrópoli, porque yo no había entendido bien de qué se trataba, pensé que era un proyecto de alguien de artes. Ahora si, me parece bacano el dibujito.
Me parecia como autoexplicativo y por eso no le incluí texto, pero venga la explicación: Tomé los dos discursos de posesión de Uribe (en el 2002 y en el 2006) y los metí en wordle que, en sus palabras, es: "Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text."
Y bueno, ahí esta el resultado. Supongo que si Uribe lo reeligen el tercer discurso quien sabe q palabras resaltaría
Calle esos ojos. Dijera lo que dijera en un discurso de posesión, lo que yo oiría sería:
"APAGUE Y VAMONOS"
Está útil a morir ese programa... ¡magnífico! Qué buen descubrimiento, Alejo. Si estuviera más desocupada, metería blogs enteros y cartas.
Que desilusión, de verdad yo pense que el programa tenia inteligencia para el significado, pero no.
Lo que si hace con inteligencia es la forma del dibujo.
Apelaez, mira esto, ahi el autor esta mostrando que Word no le corrije la ortografia a su nombre pero google si, google cuando escribe mal su nombre le sugiere el bueno.
"A very senior Microsoft developer who moved to Google told me that Google works and thinks at a higher level of abstraction than Microsoft. "Google uses Bayesian filtering the way Microsoft uses the if statement," he said. That's true..." "Look at how Google does spell checking: it's not based on dictionaries; it's based on word usage statistics of the entire Internet, which is why Google knows how to correct my name, misspelled, and Microsoft Word doesn't". Eso lo saque de www.joelonsoftware.com
Que pena pues, pero otra cosita sobre porque creo que la inteligencia en los programas a avanzado mucho. Esta
pagina donde muestran robots que no se dejan tumbar y se adaptan a la superficie para caminar. (Esos robots son hechos por una empresa pequeñita, no es samsung o nada de eso, es una empresa pequeña de uno de esos genios de la USA).
NOTA: Lo ultimo que opino de inteligencia informatica, en google deberian quitar ese traductor tan pelle que tienen en la pagina, semejante buscador tan teso con ese traductor tan absurdamente pichurrio.
oh! inteligencia artificial!! a mi me parece una contradicción en los término, juandaví.
Por otro lado, los traductores todos todos son peyes, porque traducen palabra por palabra, no por frases o ideas. así que pongan el traductor que pongan para a ser así.
Lo que hace el programa es mas bien sencillo; sólo cuenta cuántas veces aparecen las palabras. Los métodos más sofisticados comparan las frecuencias relativas de las palabras entre grupos de documentos (como Google) y otros más sofisticados, que no han visto la luz todavía en aplicaciones masivas, examinan el entorno en el que aparecen las palabras. Yo, de hecho, estoy trabajando en uno de estos últimos.
Los traductores no se han desarrollado, yo creo, por dos razones principales: una, es que no son tan buen negocio como las búsquedas en sí mismas (son apenas un apéndice poco importante de eso) y otra, es que su aplicación indiscriminada y competente provocaría problemas legales de propiedad sobre los contenidos.
Hay traductores tremendamente sofisticados, programados sobre todo en Rusia por alguna razón, pero son carísimos, requieren bastante información y una buena capacidad de cómputo. Yo sospecho que uno no podría distinguir entre el trabajo de uno de esos y un traductor de documentos legales, por ejemplo. Con un traductor bueno de poesía, eso sí, no hay caso, los programas siempre la tienen perdida.
Los pequeños algoritmos incluídos en páginas web son sencillitos y bastante malos, incluído BabelFish.
Algo que se parece, pero no es lo mismo, son aplicaciones de búsqueda en varios lenguajes a la vez, que están todavía en desarrollo, pero ya dan resultados verdaderamente impresionantes a nivel de prototipo. A la burocracia de la Comunidad Europea le encanta promover cosas así.
Juan David: Hacer una traducción y mantenerse en pie son dos tipos de problemas bastante diferentes. El primero tiene una complejidad abstracta tremenda y una implementación sencilla, y el segundo, en cambio, tiene una teoría sencilla en comparación y deriva toda su dificultad de la implementación concreta, es decir, de controlar las partes mecánicas y obtener información de los sensores suficientemente rápido.
Sobre Google y Word, es cierto: la diferencia es impresionante. Pero hay que tomar en cuenta que el algoritmo de Google está repartiendo el texto de millones de páginas web en decenas de miles de computadores para su procesamiento simultáneo, mientras que Word sólo un programa mal hecho que utiliza una fracción pequeña de la capacidad de un computador para funcionar, y el resto para que a otros programas les cueste usar el formato de los documentos y para que Microsoft pueda chequear las licencias a cada rato.
Por otro lado, es cierto que todos los procesadores de texto que conozco usan una lógica booleana muy sencillita para sugerir cambios (lo que llaman el "if"). He visto prototipos de aplicaciones mas sofisticadas, pero no conozco editores mucho mas poderosos en sus capacidades lingüísticas.
Mil disculpas por tanta carreta, pero es que cuando me pican para hablar de esas cosas...
Lanark es la muestra de que en los blogs no sólo se pierde el tiempo. Se aprende mano.
Nada de carreta Lanark, yo quedo mas agradecido que un berraco con tu explicacionsita, a mi me gusta oir de ese tema, gracias. Acerca de si Apelaez se enoja porque le cojan de parche el blog pues no creo, porque el dijo que este era un blog punkero, punk not dead.
Oi Margarita, lo de la contradiccion en los terminos yo siempre pense lo mismo, pero de un tiempo hacia aca pienso que si han avanzado mucho. Seria bueno que Lanark hablara todavia mas de eso.
Ya que parece haber interés respecto al tema este de la Inteligencia Artifical y esas cosas, recordé que ya había escrito algo al respecto
Cómo avanzan estas vainas. En los noventa trabajé en un grupo de investigación en lingüística que se llamaba Cratilo (el diálogo platónico sobre el significado de las palabras). Primero escaneábamos una novela (en mi caso, "Los días azules", de Fernando Vallejo), página por página; después tardábamos semanas en borrar los sapos, culebras y caracteres raros tipo #$%&&$#%& que salían en la escaneada en máquinas tan precarias. Nos demorábamos después meses en meter las palabras de una novela al programa y el programa se demoraba otro tanto en generar matrices con la frecuencia de las palabras. En listas, no en dibujitos de nube. Qué risa.
Cratilo también se llamaba el programa que hacía eso a paso de tortuga, desarrollado por un profesor de Filosofía de la Universidad de Antioquia y gracias al cual cosechó elogios de toda la comunidad humanística del Alma Máter. Hay que recordar que se imprimían las listas en impresoras de matriz de punto durante taaaaardes enteras. Y ahora uno dice que no tiene tiempo de nada...
Camilo: Yo creo que por ahi el 70% de la lingüística computacional de corpus que se hace hoy en día, no difiere demasiado en la parte fundamental de la que se hacía en los 80s y 90s; ha cambiado, eso sí, en dos cosas: los juguetes que se pueden usar ahora, desde luego, y la información acumulada usando esos juguetes. Y también creo que la teoría hubiera podido avanzar muchísimo mas en ese tiempo si no hubiera habido pocos tan aventados como el filósofo de la UdeA, o incluso otros más aventados que hicieran teoría aunque todavía no se pudiera aplicar.
En todo caso, habla muy bien de los humanistas de la de Antioquia que hayan tenido elogios hacia ese esfuerzo y no pánico irracional o indignación como se ha visto en otros lados. Me imagino que la imagen de Pierre Bourdieu perforando tarjetas un par de décadas antes ayudó a preparar el terreno para que los humanistas acepten esas cosas.
Publicar un comentario