Lengua Bigram Home

Jschreiner Home

Dígrafos de Lenguas Europeas En Colores 2-Dimensional

¿Que Son Estas Gráficas?

Bienvenido al sitio web de Joseph Schreiner que ilustra modelos de letras en lenguas de Europa occidental. En particular, ilustro los modelos y las frecuencias de doble-letras (dígrafos), y las combinaciones de doble-letras. En este sitio ilustro los dígrafos más comunes que se encuentran en inglés, alemán, francés, y español. No sólo vemos los dígrafos más común, sino también vemos cuál dígrafos son más probables se preceder o se seguir. Medio de las gráficas son cifradas en color, así que podemos ver en que lengua los dígrafos son más ocurrir.

A7C

Esta porción de mi sitio web se basa en las dos gráficas Principales abajo – Color y Monocromatica. Por cliquear en una sección de una gráfica Principal, una neuva ventana abre con una gráfica Detallada, que muestra la sección magnificada. Como usted peude ver, las gráficas Principales son muy complexas – cada pixel tiene significado. Las gráficas Detalladas le muestran los dígrafos reales que se representan por cada pixel.

Dígrafos Dígrafos
Precedentes Siguientes
re d_
ed _b
d_ ba
_b al
ba ll

Para claridad, el espacio letra se convierte al guión bajo. Así vemos que el dígrafo-precedente re se sigue por el dígrafo-siguiente d_.  ed se sigue por _b, y así sucesivamente.

De los modelos de dígrafos en estas cuatro lenguas de Europa occidental (todas usan el alfabeto romano), tejí el modelo de las gráficas Principales.

Gráfica Monocromatica

(Negra & Blanco)

Cliquee en una sección verla magnifcada.

La sección magnifcada abre en una ventana separada.

Es posible que usted necesite hacer la neuva ventana pantalla completa ver toda detalle.

monochrome

Gráfica Colorado

Cliquee en una sección verla magnifcada.

La sección magnifcada abre en una ventana separada.

Es posible que usted necesite hacer la neuva ventana pantalla completa ver toda detalle.

colorg

La Estructura de las Gráficas Generales

Las filas (A a I) representan el dígrafo-precedente. Las columnas (1 a 9) representan dígrafos-siguientes.  re, como un dígrafo-precendente, se encuentra en fila G.  d_, como un dígrafo-siguiente, se encuentra en columna 8. Así podemos ver en sección G8 la re-d_ ccombinación, y determinamos su frecuencia, y en cuál lengua que la ocurre las más veces.

C2C

IIlustro los más 450 dígrafos comunes. Es demasiado díficil exhiber más dígrafos, dado que los limites de navegadors web y resolución pixel. Las gráficas Generales son 450 x 450 pixeles, pero no hay uno-a-uno correspondencia entre dígrafo y pixel. Dígrafos más comúnes se muestran con largura de pixeles de más que 1,00. Dígrafos menos comunes se muestran con larguras-pixeles de menos que 1,00.

En las gráficas Monocromaticas, las frecuencias de dígrafos también se representa por la brillantez. Negro significa que esta combinación de dígrafos no ocurre en el texto catado. Blanco brillante significa que la combinación de dígrafos ocurre frecuentemente. Matices de gris representan frecuencias intermedias. Las gráficas Coloradas también usan la brillantez y la largura-pixel expresar la frecuencia.

En las gráficas Coloradas, el color o el matiz indica cuál lengua más frecuentemente tiene esta combinación dígrafica:

La Lengua El Color
Español Rojo
Francés Amarillo
Inglés Verde
Alemán Azul

Matices fuertes indican que la combinación dígrafa muestra una preferencia fuerte hacia una de las lenguas. Un matiz débil, que atende hacia blanco o gris, indica que la combinación dígrafa ocurre casi igualmente en todas cuatro lenguas.

G1C

Encuentro que las gráficas son fascinates, y espero que sean a usted también. Las gráficas Generales nos dan una vista a ojo de pájaro de las frecuencias. Ellas pueden se comparan a los spectroscopios o las electroforesis química. Pero ellas no nos permiten ver la información sobre el dígrafo individual. Por esto, tenemos que examiner las gráficas Detalladas. Sin embargo estas gráficas son complexas, pero ellas muestran bastante detalles así que examinamos dígrafos individuales.

Gráficas Detalladas

Cuando que usted cliquea en una sección de una gráfica General, usted ve la gráfica Detallada correspondiente, que magnifica esta célula. La largura-pixel se multiplican por 12. La gráficas Detalladas muestra los mismo colores y la brillantez como las gráficas Generales. Y ellas nos muestra los dígrafos a lo largo de los ejes.

Las gráficas Detalladas son tan complexas como las gráficas Generales. Recuerde que estas gráficas muestran (mediano) 50 dígrafos a lo largo de los ejes horizontales y verticales. Los dígrafos no pueden se muestran de reata. Para listar todos dígrafos, los dígrafos se muestran en líneas escalonadas. El ejemplo abajo muestra como lo hago. A lo largo del eje horizontal (el dígrafo-precedente) vemos los dígrafos co, ha, no, pa, so ... A lo largo del eje vertical (el dígrafo-siguiente) vemos los dígrafos _p, _c, _l, _e, _d ...

G2C

Esté es el orden en que ocurrimos en el eje. Pero tengo poner estes dígrafos en líneas differentes apretarlos dentro un espacio manejable.

¿Cómo Hice Estó?

Por texto catado, usé 1,8 megabytes de texto on-line (distributado igualmente entre inglés, español, francés, y alemán). 60% del texto vino de articulos de Wikipedia (que discute los Estados Unidos, Francia, México, Alemania, la computadora, la televisión, la religión, el sol, y la luna). 10% vino de Yahoo! articulos de noticias. Y 30% vino de historias de niños, fábulas, y cuentos de hadas.

Redacté el texto remover los corchetes cuadros [] de citas de Wikipedia, los titulos por las imagens, y líneas nuevas gratuitas. También convertí o traducí las letras siguientes:

  • Todas letras mayúsculas se convierten a letras minúsculas.
  • Todos doble-espacios se convierten a espacios singles.
  • Todos espacios se convierten a subrayars “_”.
  • Todos números se convierten a “9”.
  • Toda puntuatión que terminan una frase, o comienzan una frase en español (el punto, el signo de interrogación, el signo de exclamación …) se convierten al punto de exclamación “!”.
  • Todas otras letras se convierten al signo de número “#”.
  • Los comienzos y los fines de párrafos se convierten a "¶¶".

Por usando Visual Basic, escudriñé todo texto y encuentré todos dígrafos posibles. Escogí los 450 dígrafos más frecuentes por análisis adicional. Creé 450 x 450 indices de tabulaciónes separates por todas cuatro lenguas.

I2C

La más complexa y sutil parte del procediento fue determinar el orden de los dígrafos en los ejes horizontales y verticales. Siguí el principio que los dígrafos con modelos respuestos similares deben estar junto a la otra. Por ejemplo, como dígrafos-precedentes, ra y na están usualmente se siguen por los mismos dígrafos. Así estes dos dígrafos están adyacentes en el eje vertical, que define las filas. Como dígrafos-siguientes, zuko usualmente se preceden por los mismo dígrafos, así ellos están adyacentes en el eje horizontal, que define las columnas.

El concepto de la similaridad es fácil comprender, pero díficil realizar en un algoritmo estadístico. Probé muchos métodos hasta adapté el algoritmo que usé finalmente. Si usted quiere saber las detalles, envie me correo electronico. Otramente, no discuto mi método aquí.

Unos Resultados

Las gráficas Generales son ricas en detalles. Ellas son similares a los fractales, en que ellas aún muestran muchas detalles así usted examina secciónes más pequeñas. Animo que usted examine las gráficas Detalladas.

F6C

Pero permita me proporcionar unas direcciones. Vamos examinar un poco de la mejores bandas horizontales, o filas.

Banda que cruza E & F – Estés son casi todos dígrafos donde la letra segunda es un espacio. (Las gráficas Detalladas muestran los espacios como subrayares).

Una banda azul dentro I – Estés son dígrafos que atenden a ocurrir a fines de palabras alemanes o sílabas alemanes, los que ehtz, o hn.

Una banda roja dentro F – Estés son dígrafos con vocales acentadas que ocurren en español, los que , án, y .

Una banda verde dentro A – Estés son dígrafos, por la mayor parte, con yw como las letra segunda, que muchas veces terminan palabras ingleses, los que lyow, y sh.

Las bandas verticales, o columnas, son tan interesante:

E8C

Una banda cerca de 2 – Estés son dígrafos donde la letra primera es un espacio.

Una banda que cruza 5 & 6 – Estés son dígrafos donde la letra primera es rn, o l, y las letra segunda es una consonante.

Una banda roja dentro 7 – Estés son dígrafos donde la letra primera es ao, y la letra segunda es un espacio o una puntuación (el fin de palabras o frases españoles).

Y tenemos unos rectangles interesantes (la intersección de las filas y las columnas):

D2C

Vacío E2 & F2 – El texto se redacta convertir doble-espacios a espacio-single. La E/F fila es dígrafos que terminan con un espacio. La columna-2 es dígrafos que comienzan con un espacio. No hay combinaciones de dígrafos que contienen dos espacios consecutivos.

Poco denso A5 a F5 – Con una poca excepciones, los dígrafos en filas A a F terminan con consonantes. Columna-5 (que cruza hacia columna-6) contiene dígráficos doble-consonantes. Así esta intersección contiene tres consonantes consecutivos, que es raro.

Brillante E3 a F5 – Columnas-3, -4, y medio de -5 contienen dígrafos donde la letra primera es una consonante, y la letra segunda es una vocale. Esta combinación muchas veces aparece al comienzo de la palabra. Así este rectángulo representa:

letra – espacio – consonante – vocale

que es el tránsito de una palabra a una otra.

Rojo G2 & H2 – La G/H banda es la mayor de parte dígrafos donde la letra primera es una consonante, y la letra segunda es oa.  Así este rectángulo es:

consonante – o/a – espacio – letra

Muchos nombres españoles terminan en oa, así esto representa el tránsito de una palabra español a una otra.

Amarillo H2 – Fila H es la mayor de parte dígrafos donde la letra secunda es éu, o i.  Muchos participios pasados franceses terminan en éu, e i.  SAsí este rectángulo representa:

consonante – é/u/i – espacio – letra

el tránsito de una palabra francés a una otra.

¿Comentarios? ¿Preguntas? ¿Sugestiones? Por favor, envie correo electrónico:

contact me