mpdl-group: software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java annotate

annotate software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java @ 6:2396a569e446

new functions: externalObjects, normalizer, Unicode2Betacode

author	Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de>
date	Tue, 08 Feb 2011 14:54:09 +0100
parents	408254cf2f1d
children	1ec29fdd0db8

rev	line source
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1 package de.mpg.mpiwg.berlin.mpdl.lt.analyzer;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	2
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	3 import java.io.IOException;
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	4 import java.io.StringReader;
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	5 import java.util.ArrayList;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	6
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	7 import de.mpg.mpiwg.berlin.mpdl.exception.ApplicationException;
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	8 import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexAll;
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	9 import de.mpg.mpiwg.berlin.mpdl.lt.doc.regularization.Regularization;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	10 import de.mpg.mpiwg.berlin.mpdl.lt.doc.regularization.RegularizationManager;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	11 import de.mpg.mpiwg.berlin.mpdl.lt.general.Language;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	12
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	13 public class MpdlNormalizer {
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	14 public static int MODE_4LEXICA = 1; // normalization for lexica etc. which have sometimes only ascii in it
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	15 public static int MODE_4HUMAN_READERS = 2; // normalization for human readers
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	16 private int normMode = MODE_4LEXICA; // Default
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	17 private String[] normFunctionsToUse = {"reg", "norm"}; // default is to use all of these normalization functions
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	18 private String language;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	19 private int[] offsets;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	20
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	21 public MpdlNormalizer(String[] normFunctionsToUse, String lang) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	22 this.normFunctionsToUse = normFunctionsToUse;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	23 String language = Language.getInstance().getLanguageId(lang);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	24 this.language = language;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	25 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	26
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	27 public MpdlNormalizer(String language) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	28 this.language = language;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	29 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	30
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	31 public void setNormMode(int normMode) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	32 this.normMode = normMode;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	33 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	34
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	35 /**
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	36 * Applies the normalization rules in <code>language</code> to
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	37 * <code>s</code>, without offset tracking.
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	38 *
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	39 * @param s source string
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	40 * @return normalized string
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	41 */
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	42 public String normalize(String s) throws ApplicationException {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	43 String normStr = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	44 if (useRegFunction()) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	45 // try to regularize the string to the norm form over predefined regularizations
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	46 RegularizationManager regManager = RegularizationManager.getInstance();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	47 ArrayList<Regularization> regs = regManager.findRegsByOrig(language, s);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	48 if (regs != null && regs.size() > 0) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	49 Regularization reg = regs.get(0); // only one: the first one
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	50 String regNormStr = reg.getNorm();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	51 normStr = regNormStr;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	52 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	53 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	54 if (useNormFunction()) {
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	55 // normalize the string by string replacements
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	56 if (normMode == MODE_4LEXICA)
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	57 normStr = normalize4Lexica(normStr, null);
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	58 else if (normMode == MODE_4HUMAN_READERS)
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	59 normStr = normalize4HumanReaders(normStr);
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	60 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	61 return normStr;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	62 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	63
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	64 private boolean useRegFunction() {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	65 boolean useReg = false;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	66 for (int i=0; i< normFunctionsToUse.length; i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	67 String function = normFunctionsToUse[i];
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	68 if (function.equals("reg"))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	69 return true;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	70 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	71 return useReg;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	72 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	73
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	74 private boolean useNormFunction() {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	75 boolean useNorm = false;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	76 for (int i=0; i< normFunctionsToUse.length; i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	77 String function = normFunctionsToUse[i];
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	78 if (function.equals("norm"))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	79 return true;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	80 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	81 return useNorm;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	82 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	83
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	84 /**
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	85 * Applies the normalization rules in <code>language</code> to
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	86 * <code>s</code>, with offset tracking.<p>
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	87 *
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	88 * <strong>WARNING:</strong>
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	89 * Arboreal will not work properly if a normalization substitution
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	90 * replaces a source character with more than two target characters!
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	91 * This is simply a BUG, and should be fixed. Fortunately, however,
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	92 * one does not often need such a replacement.<p>
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	93 *
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	94 * @param s source string
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	95 * @param offsets character offset table
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	96 * @return normalized string
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	97 */
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	98 private String normalize4Lexica(String s, int[] offsets) {
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	99 this.offsets = offsets;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	100 if (language.equals("la") \|\| language.equals("lat")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	101 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	102 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	103 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	104 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	105 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	106 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	107 case 'j': replace = "i"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	108 case 'v': replace = "u"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	109 /*
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	110 * Linguistic note: /u/ and /v/ are rarely phonemic
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	111 * in Latin, as in alui 's/he nourished' vs.
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	112 * alvi 'of a belly', volui 's/he wished' or 'it rolled'
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	113 * vs. volvi 'to be rolled', (in)seruit 's/he joined
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	114 * together' vs. (in)servit 's/he serves'.
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	115 */
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	116 case 'q':
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	117 if ((i < s.length() - 1) && (s.charAt(i + 1) == ';'))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	118 replace = "qu";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	119 else
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	120 replace = "q";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	121 break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	122 case ';':
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	123 if ((i > 0) && (s.charAt(i - 1) == 'q'))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	124 replace = "e";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	125 else if ((i == 0) \|\| ! Character.isLetter(s.charAt(i - 1)))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	126 replace = ";";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	127 else
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	128 replace = "";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	129 break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	130 case '\u0300': replace = ""; break; // COMBINING GRAVE ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	131 case '\u0301': replace = ""; break; // COMBINING ACCUTE ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	132 case '\u0302': replace = ""; break; // COMBINING CIRCUMFLEX ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	133
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	134 case '\u00c0': replace = "A"; break; // LATIN CAPITAL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	135 case '\u00c1': replace = "A"; break; // LATIN CAPITAL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	136 case '\u00c2': replace = "A"; break; // LATIN CAPITAL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	137 case '\u00c4': replace = "A"; break; // LATIN CAPITAL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	138 case '\u00c6': replace = "Ae"; break; // LATIN CAPITAL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	139 case '\u00c7': replace = "C"; break; // LATIN CAPITAL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	140 case '\u00c8': replace = "E"; break; // LATIN CAPITAL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	141 case '\u00c9': replace = "E"; break; // LATIN CAPITAL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	142 case '\u00ca': replace = "E"; break; // LATIN CAPITAL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	143 case '\u00cb': replace = "E"; break; // LATIN CAPITAL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	144 case '\u00cc': replace = "I"; break; // LATIN CAPITAL LETTER I GRAVE;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	145 case '\u00cd': replace = "I"; break; // LATIN CAPITAL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	146 case '\u00ce': replace = "I"; break; // LATIN CAPITAL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	147 case '\u00cf': replace = "I"; break; // LATIN CAPITAL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	148 case '\u00d2': replace = "O"; break; // LATIN CAPITAL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	149 case '\u00d3': replace = "O"; break; // LATIN CAPITAL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	150 case '\u00d4': replace = "O"; break; // LATIN CAPITAL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	151 case '\u00d6': replace = "O"; break; // LATIN CAPITAL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	152 case '\u00d9': replace = "U"; break; // LATIN CAPITAL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	153 case '\u00da': replace = "U"; break; // LATIN CAPITAL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	154 case '\u00db': replace = "U"; break; // LATIN CAPITAL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	155 case '\u00dc': replace = "U"; break; // LATIN CAPITAL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	156 case '\u00e0': replace = "a"; break; // LATIN SMALL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	157 case '\u00e1': replace = "a"; break; // LATIN SMALL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	158 case '\u00e2': replace = "a"; break; // LATIN SMALL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	159 case '\u00e4': replace = "a"; break; // LATIN SMALL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	160 case '\u00e6': replace = "ae"; break; // LATIN SMALL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	161 case '\u00e7': replace = "c"; break; // LATIN SMALL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	162 case '\u00e8': replace = "e"; break; // LATIN SMALL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	163 case '\u00e9': replace = "e"; break; // LATIN SMALL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	164 case '\u00ea': replace = "e"; break; // LATIN SMALL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	165 case '\u00eb': replace = "e"; break; // LATIN SMALL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	166 case '\u00ec': replace = "i"; break; // LATIN SMALL LETTER I GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	167 case '\u00ed': replace = "i"; break; // LATIN SMALL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	168 case '\u00ee': replace = "i"; break; // LATIN SMALL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	169 case '\u00ef': replace = "i"; break; // LATIN SMALL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	170 case '\u00f2': replace = "o"; break; // LATIN SMALL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	171 case '\u00f3': replace = "o"; break; // LATIN SMALL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	172 case '\u00f4': replace = "o"; break; // LATIN SMALL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	173 case '\u00f6': replace = "o"; break; // LATIN SMALL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	174 case '\u00f9': replace = "u"; break; // LATIN SMALL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	175 case '\u00fa': replace = "u"; break; // LATIN SMALL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	176 case '\u00fb': replace = "u"; break; // LATIN SMALL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	177 case '\u00fc': replace = "u"; break; // LATIN SMALL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	178 case '\u0100': replace = "A"; break; // LATIN CAPITAL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	179 case '\u0101': replace = "a"; break; // LATIN SMALL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	180 case '\u0102': replace = "A"; break; // LATIN CAPITAL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	181 case '\u0103': replace = "a"; break; // LATIN SMALL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	182 case '\u0112': replace = "E"; break; // LATIN CAPITAL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	183 case '\u0113': replace = "e"; break; // LATIN SMALL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	184 case '\u0114': replace = "E"; break; // LATIN CAPITAL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	185 case '\u0115': replace = "e"; break; // LATIN SMALL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	186 case '\u0118': replace = "Ae"; break; // LATIN CAPITAL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	187 case '\u0119': replace = "ae"; break; // LATIN SMALL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	188 case '\u012a': replace = "I"; break; // LATIN CAPITAL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	189 case '\u012b': replace = "i"; break; // LATIN SMALL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	190 case '\u012c': replace = "I"; break; // LATIN CAPITAL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	191 case '\u012d': replace = "i"; break; // LATIN SMALL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	192 case '\u014c': replace = "O"; break; // LATIN CAPITAL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	193 case '\u014d': replace = "o"; break; // LATIN SMALL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	194 case '\u014e': replace = "O"; break; // LATIN CAPITAL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	195 case '\u014f': replace = "o"; break; // LATIN SMALL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	196 case '\u0152': replace = "Oe"; break; // LATIN CAPITAL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	197 case '\u0153': replace = "oe"; break; // LATIN SMALL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	198 case '\u016a': replace = "U"; break; // LATIN CAPITAL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	199 case '\u016b': replace = "u"; break; // LATIN SMALL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	200 case '\u016c': replace = "U"; break; // LATIN CAPITAL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	201 case '\u016d': replace = "u"; break; // LATIN SMALL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	202 case '\u017f': replace = "s"; break; // LATIN SMALL LETTER LONG S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	203 case '\u00df': replace = "ss"; break; // LATIN SMALL LETTER SHARP S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	204 case '\u00ad': break; // soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	205 // new in MPDL project by J. Willenborg
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	206 case '\u1e14': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	207 case '\u1e15': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	208 case '\u1e16': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	209 case '\u1e17': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	210 case '\u1e18': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	211 case '\u1e19': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	212 case '\u1e1a': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	213 case '\u1e1b': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	214 case '\u1e1c': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	215 case '\u1e1d': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	216 case '\u1eb8': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	217 case '\u1eb9': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	218 case '\u1eba': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	219 case '\u1ebb': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	220 case '\u1ebc': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	221 case '\u1ebd': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	222 case '\u1ebe': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	223 case '\u1ebf': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	224 case '\u1ec0': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	225 case '\u1ec1': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	226 case '\u1ec2': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	227 case '\u1ec3': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	228 case '\u1ec4': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	229 case '\u1ec5': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	230 case '\u1ec6': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	231 case '\u1ec7': replace = "e"; break; // LATIN ... LETTER E WITH ...
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	232 // by Malcolm
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	233 case '\u2329': break; // BRA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	234 case '\u232a': break; // KET
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	235 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	236 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	237 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	238 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	239 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	240 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	241 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	242 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	243 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	244 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	245 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	246 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	247 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	248 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	249 } else if (language.equals("it")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	250 // new Mpdl code: added by J. Willenborg: some of Malcolms code did not work without errors so it has to be taken away, also all latin stuff is imported
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	251 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	252 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	253 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	254 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	255 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	256 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	257 case '\u00c0': replace = "A"; break; // LATIN CAPITAL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	258 case '\u00c1': replace = "A"; break; // LATIN CAPITAL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	259 case '\u00c2': replace = "A"; break; // LATIN CAPITAL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	260 case '\u00c4': replace = "A"; break; // LATIN CAPITAL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	261 case '\u00c6': replace = "Ae"; break; // LATIN CAPITAL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	262 case '\u00c7': replace = "C"; break; // LATIN CAPITAL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	263 case '\u00c8': replace = "E"; break; // LATIN CAPITAL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	264 case '\u00c9': replace = "E"; break; // LATIN CAPITAL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	265 case '\u00ca': replace = "E"; break; // LATIN CAPITAL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	266 case '\u00cb': replace = "E"; break; // LATIN CAPITAL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	267 case '\u00cc': replace = "I"; break; // LATIN CAPITAL LETTER I GRAVE;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	268 case '\u00cd': replace = "I"; break; // LATIN CAPITAL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	269 case '\u00ce': replace = "I"; break; // LATIN CAPITAL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	270 case '\u00cf': replace = "I"; break; // LATIN CAPITAL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	271 case '\u00d2': replace = "O"; break; // LATIN CAPITAL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	272 case '\u00d3': replace = "O"; break; // LATIN CAPITAL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	273 case '\u00d4': replace = "O"; break; // LATIN CAPITAL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	274 case '\u00d6': replace = "O"; break; // LATIN CAPITAL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	275 case '\u00d9': replace = "U"; break; // LATIN CAPITAL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	276 case '\u00da': replace = "U"; break; // LATIN CAPITAL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	277 case '\u00db': replace = "U"; break; // LATIN CAPITAL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	278 case '\u00dc': replace = "U"; break; // LATIN CAPITAL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	279 case '\u00e0': replace = "a"; break; // LATIN SMALL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	280 case '\u00e1': replace = "a"; break; // LATIN SMALL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	281 case '\u00e2': replace = "a"; break; // LATIN SMALL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	282 case '\u00e4': replace = "a"; break; // LATIN SMALL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	283 case '\u00e6': replace = "ae"; break; // LATIN SMALL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	284 case '\u00e7': replace = "c"; break; // LATIN SMALL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	285 case '\u00e8': replace = "e"; break; // LATIN SMALL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	286 case '\u00e9': replace = "e"; break; // LATIN SMALL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	287 case '\u00ea': replace = "e"; break; // LATIN SMALL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	288 case '\u00eb': replace = "e"; break; // LATIN SMALL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	289 case '\u00ec': replace = "i"; break; // LATIN SMALL LETTER I GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	290 case '\u00ed': replace = "i"; break; // LATIN SMALL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	291 case '\u00ee': replace = "i"; break; // LATIN SMALL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	292 case '\u00ef': replace = "i"; break; // LATIN SMALL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	293 case '\u00f2': replace = "o"; break; // LATIN SMALL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	294 case '\u00f3': replace = "o"; break; // LATIN SMALL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	295 case '\u00f4': replace = "o"; break; // LATIN SMALL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	296 case '\u00f6': replace = "o"; break; // LATIN SMALL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	297 case '\u00f9': replace = "u"; break; // LATIN SMALL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	298 case '\u00fa': replace = "u"; break; // LATIN SMALL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	299 case '\u00fb': replace = "u"; break; // LATIN SMALL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	300 case '\u00fc': replace = "u"; break; // LATIN SMALL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	301 case '\u0100': replace = "A"; break; // LATIN CAPITAL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	302 case '\u0101': replace = "a"; break; // LATIN SMALL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	303 case '\u0102': replace = "A"; break; // LATIN CAPITAL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	304 case '\u0103': replace = "a"; break; // LATIN SMALL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	305 case '\u0112': replace = "E"; break; // LATIN CAPITAL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	306 case '\u0113': replace = "e"; break; // LATIN SMALL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	307 case '\u0114': replace = "E"; break; // LATIN CAPITAL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	308 case '\u0115': replace = "e"; break; // LATIN SMALL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	309 case '\u0118': replace = "Ae"; break; // LATIN CAPITAL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	310 case '\u0119': replace = "ae"; break; // LATIN SMALL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	311 case '\u012a': replace = "I"; break; // LATIN CAPITAL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	312 case '\u012b': replace = "i"; break; // LATIN SMALL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	313 case '\u012c': replace = "I"; break; // LATIN CAPITAL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	314 case '\u012d': replace = "i"; break; // LATIN SMALL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	315 case '\u014c': replace = "O"; break; // LATIN CAPITAL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	316 case '\u014d': replace = "o"; break; // LATIN SMALL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	317 case '\u014e': replace = "O"; break; // LATIN CAPITAL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	318 case '\u014f': replace = "o"; break; // LATIN SMALL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	319 case '\u0152': replace = "Oe"; break; // LATIN CAPITAL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	320 case '\u0153': replace = "oe"; break; // LATIN SMALL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	321 case '\u016a': replace = "U"; break; // LATIN CAPITAL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	322 case '\u016b': replace = "u"; break; // LATIN SMALL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	323 case '\u016c': replace = "U"; break; // LATIN CAPITAL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	324 case '\u016d': replace = "u"; break; // LATIN SMALL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	325 case '\u017f': replace = "s"; break; // LATIN SMALL LETTER LONG S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	326 case '\u00df': replace = "ss"; break; // LATIN SMALL LETTER SHARP S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	327 // new in MPDL project by J. Willenborg
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	328 case '\u1e8d': replace = "e"; break; // LATIN SMALL LETTER E WITH TILDE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	329 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	330 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	331 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	332 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	333 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	334 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	335 if (r == 0) this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	336 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	337 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	338 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	339 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	340 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	341 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	342 // new Mpdl code: added by J. Willenborg: most of the latin replacements also in english
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	343 } else if (language.equals("en")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	344 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	345 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	346 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	347 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	348 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	349 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	350 case '\u0300': replace = ""; break; // COMBINING GRAVE ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	351 case '\u0301': replace = ""; break; // COMBINING ACCUTE ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	352 case '\u0302': replace = ""; break; // COMBINING CIRCUMFLEX ACCENT
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	353
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	354 case '\u00c0': replace = "A"; break; // LATIN CAPITAL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	355 case '\u00c1': replace = "A"; break; // LATIN CAPITAL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	356 case '\u00c2': replace = "A"; break; // LATIN CAPITAL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	357 case '\u00c4': replace = "A"; break; // LATIN CAPITAL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	358 case '\u00c6': replace = "Ae"; break; // LATIN CAPITAL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	359 case '\u00c7': replace = "C"; break; // LATIN CAPITAL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	360 case '\u00c8': replace = "E"; break; // LATIN CAPITAL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	361 case '\u00c9': replace = "E"; break; // LATIN CAPITAL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	362 case '\u00ca': replace = "E"; break; // LATIN CAPITAL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	363 case '\u00cb': replace = "E"; break; // LATIN CAPITAL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	364 case '\u00cc': replace = "I"; break; // LATIN CAPITAL LETTER I GRAVE;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	365 case '\u00cd': replace = "I"; break; // LATIN CAPITAL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	366 case '\u00ce': replace = "I"; break; // LATIN CAPITAL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	367 case '\u00cf': replace = "I"; break; // LATIN CAPITAL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	368 case '\u00d2': replace = "O"; break; // LATIN CAPITAL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	369 case '\u00d3': replace = "O"; break; // LATIN CAPITAL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	370 case '\u00d4': replace = "O"; break; // LATIN CAPITAL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	371 case '\u00d6': replace = "O"; break; // LATIN CAPITAL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	372 case '\u00d9': replace = "U"; break; // LATIN CAPITAL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	373 case '\u00da': replace = "U"; break; // LATIN CAPITAL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	374 case '\u00db': replace = "U"; break; // LATIN CAPITAL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	375 case '\u00dc': replace = "U"; break; // LATIN CAPITAL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	376 case '\u00e0': replace = "a"; break; // LATIN SMALL LETTER A GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	377 case '\u00e1': replace = "a"; break; // LATIN SMALL LETTER A ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	378 case '\u00e2': replace = "a"; break; // LATIN SMALL LETTER A CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	379 case '\u00e4': replace = "a"; break; // LATIN SMALL LETTER A DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	380 case '\u00e6': replace = "ae"; break; // LATIN SMALL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	381 case '\u00e7': replace = "c"; break; // LATIN SMALL LETTER C CEDILLA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	382 case '\u00e8': replace = "e"; break; // LATIN SMALL LETTER E GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	383 case '\u00e9': replace = "e"; break; // LATIN SMALL LETTER E ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	384 case '\u00ea': replace = "e"; break; // LATIN SMALL LETTER E CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	385 case '\u00eb': replace = "e"; break; // LATIN SMALL LETTER E DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	386 case '\u00ec': replace = "i"; break; // LATIN SMALL LETTER I GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	387 case '\u00ed': replace = "i"; break; // LATIN SMALL LETTER I ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	388 case '\u00ee': replace = "i"; break; // LATIN SMALL LETTER I CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	389 case '\u00ef': replace = "i"; break; // LATIN SMALL LETTER I DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	390 case '\u00f2': replace = "o"; break; // LATIN SMALL LETTER O GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	391 case '\u00f3': replace = "o"; break; // LATIN SMALL LETTER O ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	392 case '\u00f4': replace = "o"; break; // LATIN SMALL LETTER O CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	393 case '\u00f6': replace = "o"; break; // LATIN SMALL LETTER O DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	394 case '\u00f9': replace = "u"; break; // LATIN SMALL LETTER U GRAVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	395 case '\u00fa': replace = "u"; break; // LATIN SMALL LETTER U ACUTE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	396 case '\u00fb': replace = "u"; break; // LATIN SMALL LETTER U CIRCUMFLEX
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	397 case '\u00fc': replace = "u"; break; // LATIN SMALL LETTER U DIAERESIS
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	398 case '\u0100': replace = "A"; break; // LATIN CAPITAL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	399 case '\u0101': replace = "a"; break; // LATIN SMALL LETTER A MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	400 case '\u0102': replace = "A"; break; // LATIN CAPITAL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	401 case '\u0103': replace = "a"; break; // LATIN SMALL LETTER A BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	402 case '\u0112': replace = "E"; break; // LATIN CAPITAL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	403 case '\u0113': replace = "e"; break; // LATIN SMALL LETTER E MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	404 case '\u0114': replace = "E"; break; // LATIN CAPITAL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	405 case '\u0115': replace = "e"; break; // LATIN SMALL LETTER E BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	406 case '\u0118': replace = "Ae"; break; // LATIN CAPITAL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	407 case '\u0119': replace = "ae"; break; // LATIN SMALL LETTER E OGONEK
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	408 case '\u012a': replace = "I"; break; // LATIN CAPITAL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	409 case '\u012b': replace = "i"; break; // LATIN SMALL LETTER I MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	410 case '\u012c': replace = "I"; break; // LATIN CAPITAL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	411 case '\u012d': replace = "i"; break; // LATIN SMALL LETTER I BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	412 case '\u014c': replace = "O"; break; // LATIN CAPITAL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	413 case '\u014d': replace = "o"; break; // LATIN SMALL LETTER O MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	414 case '\u014e': replace = "O"; break; // LATIN CAPITAL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	415 case '\u014f': replace = "o"; break; // LATIN SMALL LETTER O BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	416 case '\u0152': replace = "Oe"; break; // LATIN CAPITAL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	417 case '\u0153': replace = "oe"; break; // LATIN SMALL LETTER O E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	418 case '\u016a': replace = "U"; break; // LATIN CAPITAL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	419 case '\u016b': replace = "u"; break; // LATIN SMALL LETTER U MACRON
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	420 case '\u016c': replace = "U"; break; // LATIN CAPITAL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	421 case '\u016d': replace = "u"; break; // LATIN SMALL LETTER U BREVE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	422 case '\u017f': replace = "s"; break; // LATIN SMALL LETTER LONG S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	423 case '\u00df': replace = "ss"; break; // LATIN SMALL LETTER SHARP S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	424 // new in MPDL project by J. Willenborg
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	425 case '\u1e8d': replace = "e"; break; // LATIN SMALL LETTER E WITH TILDE
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	426 // by Malcolm
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	427 case '\u00ad': break; // soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	428 case '\u2329': break; // BRA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	429 case '\u232a': break; // KET
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	430 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	431 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	432 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	433 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	434 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	435 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	436 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	437 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	438 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	439 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	440 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	441 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	442 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	443 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	444 } else if (language.equals("fr")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	445 // new Mpdl code: added by J. Willenborg: some of Malcolms code did not work without errors so it has to be taken away
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	446 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	447 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	448 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	449 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	450 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	451 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	452 case '\u00e6': replace = "ae"; break; // LATIN SMALL LETTER A E
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	453 case '\u017f': replace = "s"; break; // LATIN SMALL LETTER LONG S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	454 case '\u00df': replace = "ss"; break; // LATIN SMALL LETTER SHARP S
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	455 case '\u00ad': break; // soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	456 case '-': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	457 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	458 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	459 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	460 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	461 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	462 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	463 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	464 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	465 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	466 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	467 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	468 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	469 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	470 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	471 } else if (language.equals("de")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	472 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	473 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	474 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	475 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	476 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	477 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	478 case '\u00c4': replace = "Ae"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	479 case '\u00d6': replace = "Oe"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	480 case '\u00dc': replace = "Ue"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	481 case '\u00df': replace = "ss"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	482 case '\u00e4': replace = "ae"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	483 case '\u00f6': replace = "oe"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	484 case '\u00fc': replace = "ue"; break;
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	485 case '\u00ad': break; // soft hyphen
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	486 case '\u00e9': replace = "e"; break;
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	487 // new in MPDL project by J. Willenborg
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	488 case '\u017f': replace = "s"; break; // LATIN SMALL LETTER LONG S
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	489 // case '-': break;
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	490 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	491 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	492 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	493 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	494 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	495 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	496 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	497 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	498 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	499 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	500 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	501 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	502 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	503 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	504 } else if (language.equals("zh")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	505 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	506 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	507 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	508 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	509 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	510 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	511 case '\u00b9': replace = "1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	512 case '\u00b2': replace = "2"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	513 case '\u00b3': replace = "3"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	514 case '\u2074': replace = "4"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	515 case '\u2075': replace = "5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	516 // original by Malcolm Hyman: with the following replacements // TODO uncomment these 3 lines
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	517 // case '\u3000': replace = " "; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	518 // case '\u3001': replace = ","; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	519 // case '\u3002': replace = "."; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	520 // case '\u200b': break; // BREAKS EVERYTHING!
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	521 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	522 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	523 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	524 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	525 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	526 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	527 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	528 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	529 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	530 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	531 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	532 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	533 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	534 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	535 } else if (language.equals("akk") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	536 language.equals("qam") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	537 language.equals("qpc") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	538 language.equals("elx") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	539 language.equals("sux") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	540 language.equals("hit") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	541 language.equals("qhu") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	542 language.equals("peo") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	543 language.equals("uga") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	544 language.equals("ura") \|\|
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	545 language.equals("qcu")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	546 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	547 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	548 char last = '\u0000';
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	549 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	550 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	551 c = Character.toLowerCase(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	552 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	553 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	554 case '{': replace += "-"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	555 case '}': replace += "-"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	556 // These are from PSD::ATF::Unicode by Steve Tinney
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	557 case '\u0161': replace += "sz"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	558 case '\u1e63': replace += "s,"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	559 case '\u1e6d': replace += "t,"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	560 case '\u014b': replace += "j"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	561 case '\u015b': replace += "s'"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	562 case '\u2080': replace += "0"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	563 case '\u2081': replace += "1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	564 case '\u2082': replace += "2"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	565 case '\u2083': replace += "3"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	566 case '\u2084': replace += "4"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	567 case '\u2085': replace += "5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	568 case '\u2086': replace += "6"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	569 case '\u2087': replace += "7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	570 case '\u2088': replace += "8"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	571 case '\u2089': replace += "9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	572
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	573 case 'c': // shin (except where used as modifier)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	574 if ((i > 0) && ((last == '~') \|\| (last == '@')))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	575 replace += "c";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	576 else replace += "sz";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	577 break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	578 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	579 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	580 // suppress grapheme boundary before or after word boundary
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	581 if (replace.equals("-")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	582 if ((i + 1 == s.length()) \|\| (s.charAt(i + 1) == ' ') \|\| (i == 0) \|\| (s.charAt(i - 1) == ' '))
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	583 replace = "";
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	584 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	585 last = c;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	586 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	587 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	588 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	589 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	590 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	591 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	592 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	593 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	594 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	595 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	596 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	597 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	598 } else if (language.equals("el") \|\| language.equals("grc")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	599 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	600 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	601 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	602 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	603 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	604 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	605 case '\u03c2': replace = "\u03c3"; break; // GREEK SMALL LETTER FINAL SIGMA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	606 case '<': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	607 case '>': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	608 case '[': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	609 case ']': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	610 case '1': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	611 case '2': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	612 case '\u03ac': replace = "\u1f71"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	613 case '\u03ad': replace = "\u1f73"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	614 case '\u03ae': replace = "\u1f75"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	615 case '\u03af': replace = "\u1f77"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	616 case '\u03cc': replace = "\u1f79"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	617 case '\u03cd': replace = "\u1f7b"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	618 case '\u03ce': replace = "\u1f7d"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	619 case '-': break; // same treatment as soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	620 case '\u00ad': break; // soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	621 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	622 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	623 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	624 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	625 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	626 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	627 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	628 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	629 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	630 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	631 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	632 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	633 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	634 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	635 } else if (language.equals("el_atonic")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	636 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	637 int n = 0;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	638 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	639 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	640 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	641 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	642 case '\u03c2': replace = "\u03c3"; break; // GREEK SMALL LETTER FINAL SIGMA
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	643 // map characters with diacritics to their plain equivalent
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	644 // cf. <code>BetaCode.java</code>
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	645 case '\u03aa': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	646 case '\u03ab': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	647 case '\u03ac': replace = "\u0381"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	648 case '\u03ad': replace = "\u0385"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	649 case '\u03ae': replace = "\u0387"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	650 case '\u03af': replace = "\u0389"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	651 case '\u03ca': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	652 case '\u03cb': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	653 case '\u03cc': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	654 case '\u03cd': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	655 case '\u03ce': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	656 case '\u1f00': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	657 case '\u1f01': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	658 case '\u1f02': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	659 case '\u1f03': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	660 case '\u1f04': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	661 case '\u1f05': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	662 case '\u1f06': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	663 case '\u1f07': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	664 case '\u1f08': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	665 case '\u1f09': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	666 case '\u1f0a': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	667 case '\u1f0b': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	668 case '\u1f0c': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	669 case '\u1f0d': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	670 case '\u1f0e': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	671 case '\u1f0f': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	672 case '\u1f10': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	673 case '\u1f11': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	674 case '\u1f12': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	675 case '\u1f13': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	676 case '\u1f14': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	677 case '\u1f15': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	678 case '\u1f18': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	679 case '\u1f19': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	680 case '\u1f1a': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	681 case '\u1f1b': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	682 case '\u1f1c': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	683 case '\u1f1d': replace = "\u0395"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	684 case '\u1f20': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	685 case '\u1f21': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	686 case '\u1f22': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	687 case '\u1f23': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	688 case '\u1f24': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	689 case '\u1f25': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	690 case '\u1f26': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	691 case '\u1f27': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	692 case '\u1f28': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	693 case '\u1f29': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	694 case '\u1f2a': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	695 case '\u1f2b': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	696 case '\u1f2c': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	697 case '\u1f2d': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	698 case '\u1f2e': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	699 case '\u1f2f': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	700 case '\u1f30': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	701 case '\u1f31': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	702 case '\u1f32': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	703 case '\u1f33': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	704 case '\u1f34': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	705 case '\u1f35': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	706 case '\u1f36': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	707 case '\u1f37': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	708 case '\u1f38': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	709 case '\u1f39': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	710 case '\u1f3a': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	711 case '\u1f3b': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	712 case '\u1f3c': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	713 case '\u1f3d': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	714 case '\u1f3e': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	715 case '\u1f3f': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	716 case '\u1f40': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	717 case '\u1f41': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	718 case '\u1f42': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	719 case '\u1f43': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	720 case '\u1f44': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	721 case '\u1f45': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	722 case '\u1f48': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	723 case '\u1f49': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	724 case '\u1f4a': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	725 case '\u1f4b': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	726 case '\u1f4c': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	727 case '\u1f4d': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	728 case '\u1f50': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	729 case '\u1f51': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	730 case '\u1f52': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	731 case '\u1f53': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	732 case '\u1f54': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	733 case '\u1f55': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	734 case '\u1f56': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	735 case '\u1f57': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	736 case '\u1f58': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	737 case '\u1f59': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	738 case '\u1f5a': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	739 case '\u1f5b': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	740 case '\u1f5c': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	741 case '\u1f5d': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	742 case '\u1f5e': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	743 case '\u1f5f': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	744 case '\u1f60': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	745 case '\u1f61': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	746 case '\u1f62': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	747 case '\u1f63': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	748 case '\u1f64': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	749 case '\u1f65': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	750 case '\u1f66': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	751 case '\u1f67': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	752 case '\u1f68': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	753 case '\u1f69': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	754 case '\u1f6a': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	755 case '\u1f6b': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	756 case '\u1f6c': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	757 case '\u1f6d': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	758 case '\u1f6e': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	759 case '\u1f6f': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	760 case '\u1f70': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	761 case '\u1f71': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	762 case '\u1f72': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	763 case '\u1f73': replace = "\u03b5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	764 case '\u1f74': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	765 case '\u1f75': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	766 case '\u1f76': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	767 case '\u1f77': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	768 case '\u1f78': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	769 case '\u1f79': replace = "\u03bf"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	770 case '\u1f7a': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	771 case '\u1f7b': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	772 case '\u1f7c': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	773 case '\u1f7d': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	774 case '\u1f80': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	775 case '\u1f81': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	776 case '\u1f82': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	777 case '\u1f83': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	778 case '\u1f84': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	779 case '\u1f85': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	780 case '\u1f86': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	781 case '\u1f87': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	782 case '\u1f88': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	783 case '\u1f89': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	784 case '\u1f8a': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	785 case '\u1f8b': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	786 case '\u1f8c': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	787 case '\u1f8d': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	788 case '\u1f8e': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	789 case '\u1f8f': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	790 case '\u1f90': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	791 case '\u1f91': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	792 case '\u1f92': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	793 case '\u1f93': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	794 case '\u1f94': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	795 case '\u1f95': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	796 case '\u1f96': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	797 case '\u1f97': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	798 case '\u1f98': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	799 case '\u1f99': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	800 case '\u1f9a': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	801 case '\u1f9b': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	802 case '\u1f9c': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	803 case '\u1f9d': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	804 case '\u1f9e': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	805 case '\u1f9f': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	806 case '\u1fa0': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	807 case '\u1fa1': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	808 case '\u1fa2': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	809 case '\u1fa3': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	810 case '\u1fa4': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	811 case '\u1fa5': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	812 case '\u1fa6': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	813 case '\u1fa7': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	814 case '\u1fa8': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	815 case '\u1fa9': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	816 case '\u1faa': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	817 case '\u1fab': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	818 case '\u1fac': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	819 case '\u1fad': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	820 case '\u1fae': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	821 case '\u1faf': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	822 case '\u1fb2': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	823 case '\u1fb3': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	824 case '\u1fb4': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	825 case '\u1fb6': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	826 case '\u1fb7': replace = "\u03b1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	827 case '\u1fba': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	828 case '\u1fbb': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	829 case '\u1fbc': replace = "\u0391"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	830 case '\u1fc2': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	831 case '\u1fc3': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	832 case '\u1fc4': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	833 case '\u1fc6': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	834 case '\u1fc7': replace = "\u03b7"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	835 case '\u1fca': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	836 case '\u1fcb': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	837 case '\u1fcc': replace = "\u0397"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	838 case '\u1fd2': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	839 case '\u1fd3': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	840 case '\u1fd6': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	841 case '\u1fd7': replace = "\u03b9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	842 case '\u1fda': replace = "\u0399"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	843 case '\u1fdb': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	844 case '\u1fe2': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	845 case '\u1fe3': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	846 case '\u1fe4': replace = "\u03c1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	847 case '\u1fe5': replace = "\u03c1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	848 case '\u1fe6': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	849 case '\u1fe7': replace = "\u03c5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	850 case '\u1fea': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	851 case '\u1feb': replace = "\u03a5"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	852 case '\u1fec': replace = "\u03a1"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	853 case '\u1ff2': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	854 case '\u1ff3': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	855 case '\u1ff4': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	856 case '\u1ff6': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	857 case '\u1ff7': replace = "\u03c9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	858 case '\u1ff8': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	859 case '\u1ff9': replace = "\u039f"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	860 case '\u1ffa': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	861 case '\u1ffb': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	862 case '\u1ffc': replace = "\u03a9"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	863
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	864 case '<': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	865 case '>': break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	866 case '-': break; // same treatment as soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	867 case '\u00ad': break; // soft hyphen
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	868 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	869 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	870 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	871 // update offsets if replacement is a different length
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	872 if (offsets != null) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	873 int r = replace.length();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	874 if (r == 0)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	875 this.offsets = arrayKill(this.offsets, i - n);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	876 else if (r == 2)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	877 this.offsets = arrayInsert(this.offsets, i - n + 1, this.offsets[i - n], r - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	878 n += 1 - r;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	879 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	880 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	881 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	882 } else { // unknown or no language
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	883 return s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	884 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	885 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	886
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	887 public String deNormalizeToRegExpr(String s) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	888 // TODO all characters in all languages
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	889 if (language.equals("la") \|\| language.equals("lat")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	890 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	891 if (s.indexOf("ae") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	892 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	893 str1 = str1.replaceAll("ae", "\u0119");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	894 String str2 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	895 str2 = str2.replaceAll("ae", "\u00c6");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	896 String str3 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	897 str3 = str3.replaceAll("ae", "\u00e6");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	898 buf.append(str1 + "\|" + str2 + "\|" + str3 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	899 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	900 if (s.indexOf("oe") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	901 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	902 str1 = str1.replaceAll("oe", "\u0152");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	903 String str2 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	904 str2 = str2.replaceAll("oe", "\u0153");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	905 buf.append(str1 + "\|" + str2 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	906 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	907 if (s.indexOf("ss") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	908 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	909 str1 = str1.replaceAll("ss", "\u00df");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	910 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	911 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	912 boolean beginWord = true;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	913 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	914 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	915 if (! beginWord)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	916 c = Character.toLowerCase(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	917 beginWord = Character.isWhitespace(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	918 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	919 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	920 case 'a': replace = "[a\u00c0\u00c1\u00c2\u00c4\u00e0\u00e1\u00e2\u00e4]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	921 case 'c': replace = "[c\u00c7\u00e7]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	922 case 'e': replace = "[e\u00c8\u00c9\u00ca\u00cb\u00e8\u00e9\u00ea\u00eb\u0113\u0115\u1ebd]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	923 case 'i': replace = "[ij\u00cc\u00cd\u00ce\u00cf\u00ec\u00ed\u00ee\u00ef\u012a\u012b\u012c\u012d]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	924 case 'o': replace = "[o\u00d2\u00d3\u00d4\u00d6\u00f2\u00f3\u00f4\u00f6\u014c\u014d\u014e\u014f]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	925 case 'u': replace = "[uv\u00d9\u00da\u00db\u00dc\u00f9\u00fa\u00fb\u00fc\u016a\u016b\u016c\u016d]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	926 case 's': replace = "[s\u017f]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	927 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	928 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	929 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	930 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	931 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	932 } else if (language.equals("en")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	933 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	934 if (s.indexOf("ae") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	935 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	936 str1 = str1.replaceAll("ae", "\u0119");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	937 String str2 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	938 str2 = str2.replaceAll("ae", "\u00c6");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	939 String str3 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	940 str3 = str3.replaceAll("ae", "\u00e6");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	941 buf.append(str1 + "\|" + str2 + "\|" + str3 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	942 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	943 if (s.indexOf("oe") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	944 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	945 str1 = str1.replaceAll("oe", "\u0152");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	946 String str2 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	947 str2 = str2.replaceAll("oe", "\u0153");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	948 buf.append(str1 + "\|" + str2 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	949 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	950 if (s.indexOf("ss") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	951 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	952 str1 = str1.replaceAll("ss", "\u00df");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	953 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	954 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	955 boolean beginWord = true;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	956 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	957 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	958 if (! beginWord)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	959 c = Character.toLowerCase(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	960 beginWord = Character.isWhitespace(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	961 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	962 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	963 case 'a': replace = "[a\u00c0\u00c1\u00c2\u00c4\u00e0\u00e1\u00e2\u00e4]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	964 case 'c': replace = "[c\u00c7\u00e7]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	965 case 'e': replace = "[e\u00c8\u00c9\u00ca\u00cb\u00e8\u00e9\u00ea\u00eb\u0113\u0115\u1e8d]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	966 case 'i': replace = "[i\u00cc\u00cd\u00ce\u00cf\u00ec\u00ed\u00ee\u00ef\u012a\u012b\u012c\u012d]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	967 case 'o': replace = "[o\u00d2\u00d3\u00d4\u00d6\u00f2\u00f3\u00f4\u00f6\u014c\u014d\u014e\u014f]‚"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	968 case 'u': replace = "[u\u00d9\u00da\u00db\u00dc\u00f9\u00fa\u00fb\u00fc\u016a\u016b\u016c\u016d]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	969 case 's': replace = "[s\u017f]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	970 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	971 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	972 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	973 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	974 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	975 } else if (language.equals("de")) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	976 StringBuffer buf = new StringBuffer();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	977 if (s.indexOf("ss") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	978 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	979 str1 = str1.replaceAll("ss", "\u00df");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	980 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	981 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	982 if (s.indexOf("ae") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	983 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	984 str1 = str1.replaceAll("ae", "\u00e4");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	985 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	986 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	987 if (s.indexOf("oe") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	988 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	989 str1 = str1.replaceAll("oe", "\u00f6");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	990 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	991 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	992 if (s.indexOf("ue") != -1) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	993 String str1 = s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	994 str1 = str1.replaceAll("ue", "\u00fc");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	995 buf.append(str1 + "\|");
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	996 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	997 boolean beginWord = true;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	998 for (int i = 0; i < s.length(); i++) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	999 char c = s.charAt(i);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1000 if (! beginWord)
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1001 c = Character.toLowerCase(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1002 beginWord = Character.isWhitespace(c);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1003 String replace = new String();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1004 switch (c) {
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1005 case 'e': replace = "[e\u00e9]"; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1006 default: replace += c; break;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1007 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1008 buf.append(replace);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1009 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1010 return buf.toString();
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1011 } else { // unknown or no language
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1012 return s;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1013 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1014 }
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1015
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1016 private String normalize4HumanReaders(String s) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1017 String normStr = s;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1018 StringReader strReader = new StringReader(normStr + "\n");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1019 MpdlNormalizerLexAll mpdlNormalizerLexAll = new MpdlNormalizerLexAll(strReader);
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1020 if (Language.getInstance().isLatin(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1021 mpdlNormalizerLexAll.yybegin(MpdlNormalizerLexAll.LA);
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1022 } else if (Language.getInstance().isChinese(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1023 mpdlNormalizerLexAll.yybegin(MpdlNormalizerLexAll.ZH);
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1024 } else {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1025 // TODO normalization for all languages
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1026 return normalize4Lexica(s, null); // old function
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1027 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1028 String retStr = "";
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1029 String token = "";
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1030 while (token != null) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1031 try {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1032 token = mpdlNormalizerLexAll.yylex();
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1033 if (token != null)
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1034 retStr += token;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1035 } catch (IOException e ) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1036 // nothing cause IOException is not needed for a StringReader
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1037 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1038 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1039 normStr = retStr;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1040 return normStr;
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1041 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1042
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1043 /*
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1044 // explicit words
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1045 normStr = normStr.replaceAll("aliàs", "alias");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1046 normStr = normStr.replaceAll("hîc", "hic");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1047 normStr = normStr.replaceAll("quòd", "quod");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1048 normStr = normStr.replaceAll("Quòd", "Quod");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1049 normStr = normStr.replaceAll("QVòd", "Quod");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1050 normStr = normStr.replaceAll("Cùmque", "Cumque");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1051 normStr = normStr.replaceAll("aër", "aer");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1052 // ij
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1053 normStr = normStr.replaceAll("ij", "ii");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1054 // qu/qv
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1055 normStr = normStr.replaceAll("qv", "qu");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1056 // normStr = normStr.replaceAll("qV", "qU");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1057 normStr = normStr.replaceAll("Qv", "Qu");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1058 normStr = normStr.replaceAll("QV", "QU");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1059 // u/v
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1060 String vowels = getVowels();
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1061 String consonants = getConsonants();
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1062 normStr = normStr.replaceAll("([" + vowels + "])([-]*)u([" + vowels +"])", "$1$2v$3"); // vowel + u + vowel --> vowel + v + vowel
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1063 normStr = normStr.replaceAll("([" + vowels + "])([-]*)U([" + vowels +"])", "$1$2V$3"); // vowel + U + vowel --> vowel + V + vowel
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1064 normStr = normStr.replaceAll("([" + consonants + "])([-]*)v([" + consonants +"])", "$1$2u$3"); // consonant + v + consonant --> consonant + u + consonant
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1065 normStr = normStr.replaceAll("([" + consonants + "])([-]*)V([" + consonants +"])", "$1$2U$3"); // consonant + V + consonant --> consonant + U + consonant
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1066 normStr = normStr.replaceAll("^v([" + consonants +"])", "u$1"); // v + consonant --> u + consonant
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1067 normStr = normStr.replaceAll("^V([" + consonants +"])", "U$1"); // V + consonant --> U + consonant
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1068 // end of word: diacritica
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1069 normStr = normStr.replaceAll("à$", "a");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1070 normStr = normStr.replaceAll("è$", "e");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1071 normStr = normStr.replaceAll("ò$", "o");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1072 normStr = normStr.replaceAll("àm$", "am");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1073 normStr = normStr.replaceAll("ùm$", "um");
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1074 String normStrTmp = normStr;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1075 normStr = "";
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1076 for (int i = 0; i < normStrTmp.length(); i++) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1077 char c = normStrTmp.charAt(i);
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1078 String replace = "";
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1079 switch (c) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1080 case 'ſ': replace = "s"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1081 case 'ß': replace = "ss"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1082 case 'æ': replace = "ae"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1083 case 'Æ': replace = "AE"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1084 case 'ę': replace = "ae"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1085 case 'œ': replace = "oe"; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1086 default: replace += c; break;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1087 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1088 normStr = normStr + replace;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1089 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1090
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1091
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1092 private String getVowels() {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1093 String retStr = null;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1094 if (Language.getInstance().isItalian(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1095 retStr = "AEIOUaeiou" +
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1096 "\u00c6\u00e6" + // AE ligatures
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1097 "\u0152\u0153"; // OE ligatures
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1098 } else if (Language.getInstance().isLatin(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1099 retStr = "AEIOUaeiouÆœęàèòù";
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1100 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1101 // TODO all languages
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1102 return retStr;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1103 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1104
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1105 private String getConsonants() {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1106 String retStr = null;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1107 if (Language.getInstance().isItalian(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1108 retStr = "BCDFGHKLMNPQRSTVWXZ" +
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1109 "bcdfghklmnpqrstvwxz" +
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1110 "ſß"; // long/sharp S
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1111 } else if (Language.getInstance().isLatin(language)) {
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1112 retStr = "BCDFGHKLMNPQRSTVWXZ" +
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1113 "bcdfghklmnpqrstvwxz" +
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1114 "ſß"; // long/sharp S
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1115 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1116 // TODO all languages
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1117 return retStr;
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1118 }
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1119
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1120
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1121
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1122
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1123
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1124 *
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1125 *
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1126 *
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1127 *
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1128 */
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1129
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1130
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1131
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1132
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1133
2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1134
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1135 /**
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1136 * Returns a copy of an integer array with the element at
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1137 * <code>index</code> removed ("killed").
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1138 *
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1139 * @param array integer array
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1140 * @param index index of element to remove
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1141 */
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1142 private int[] arrayKill(int[] array, int index) {
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1143 int[] newArray = new int[array.length - 1];
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1144 System.arraycopy(array, 0, newArray, 0, index);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1145 System.arraycopy(array, index + 1, newArray, index, array.length - index - 1);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1146 return newArray;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1147 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1148
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1149 /**
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1150 * Returns a copy of an integer array with <code>count</code> elements
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1151 * inserted at <code>index</code>.
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1152 *
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1153 * @param array integer array
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1154 * @param index index to insert new elements
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1155 * @param value value to insert into new slots
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1156 * @param count number of new slots to insert
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1157 */
6 2396a569e446 new functions: externalObjects, normalizer, Unicode2Betacode Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: 0 diff changeset	1158 private int[] arrayInsert(int[] array, int index, int value, int count) {
0 408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1159 int[] newArray = new int[array.length + count];
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1160 System.arraycopy(array, 0, newArray, 0, index);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1161 for (int i = 0; i < count; i++) newArray[index + i] = value;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1162 System.arraycopy(array, index, newArray, index + count, array.length - index);
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1163 return newArray;
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1164 }
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1165
408254cf2f1d Erstellung Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de> parents: diff changeset	1166 }

Mercurial > hg > mpdl-group

annotate software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java @ 6:2396a569e446