Source code for revscoring.languages.estonian

from .features import Dictionary, RegexMatches, Stopwords

name = "estonian"

try:
    import enchant
    dictionary = enchant.Dict("et")
except enchant.errors.DictNotFoundError:
    raise ImportError("No enchant-compatible dictionary found for 'et'.  " +
                      "Consider installing 'myspell-et'.")

dictionary = Dictionary(name + ".dictionary", dictionary.check)
"""
:class:`~revscoring.languages.features.Dictionary` features via
:class:`enchant.Dict` "et". Provided by `myspell-et`
"""

# No stemmer

# Copied from https://meta.wikimedia.org/wiki/?oldid=13987775
stopwords = [
    "aasta", "aastal", "aastani", "aastast", "aastat", "aastatel", "aeg",
    "aga", "ainult", "ajal", "ajalugu", "alates", "all", "alla", "allikad",
    "ameerika", "and", "aprill", "artikkel", "artiklit", "asub", "august",
    "autor", "category", "class", "com", "commons", "coordinate",
    "detsember", "di", "eest", "eesti", "eestis", "ega", "ehk", "ei", "elu",
    "enam", "enne", "esimene", "esimese", "est", "euroopa", "ew", "file",
    "hiljem", "htm", "html", "http", "ide", "iga", "ii", "il", "ile", "image",
    "in", "index", "inglise", "inimesed", "ist", "jaanuar", "jpg", "juba",
    "juuli", "juuni", "juures", "jäi", "järgi", "järjesta", "kaks", "kas",
    "kategooria", "keel", "keeles", "keeletoimeta", "kes", "kirjandus",
    "koduleht", "kogu", "kohta", "kokku", "kolm", "koos", "korda", "kui",
    "kuid", "kuna", "kuni", "kus", "kuu", "kõige", "kõik", "le", "left",
    "liit", "link", "linna", "lisa", "lisaks", "lk", "läbi", "lõuna",
    "maailma", "maakonna", "mida", "mille", "mis", "mitte", "märts", "nad",
    "nagu", "name", "need", "neid", "neist", "nende", "news", "ng", "nii",
    "nime", "nimi", "ning", "november", "nr", "ns", "näiteks", "of",
    "oktoober", "old", "ole", "oli", "olid", "olla", "olnud", "oma", "on",
    "org", "osa", "palju", "pdf", "peale", "php", "pildi", "pilt", "pisi",
    "png", "pole", "poolt", "px", "pärast", "põhja", "ref", "region", "right",
    "riigi", "riik", "rohkem", "rootsi", "räägib", "saab", "saanud", "sai",
    "saksa", "saksamaa", "sama", "samal", "samuti", "seal", "seda", "see",
    "selle", "sellest", "seotud", "september", "sest", "siis", "siiski",
    "small", "sse", "surnud", "suur", "svg", "sündinud", "tagasi", "tallinn",
    "tallinna", "tartu", "teda", "teine", "teise", "teiste", "tema", "the",
    "thumb", "toimeta", "toimetaaeg", "tuntud", "type", "tõttu", "umbes",
    "usa", "uus", "vaata", "vahel", "vaid", "vald", "vana", "varem", "vastu",
    "veebruar", "veel", "vene", "venemaa", "viide", "viited", "von", "väga",
    "välislingid", "välja", "või", "võib", "www", "ära", "ühe", "üks", "üle",
    "ülikool",
]
"""
:class:`~revscoring.languages.features.Stopwords` features copied from
"common words" in https://meta.wikimedia.org/wiki/?oldid=13987775
"""

stopwords = Stopwords(name + ".stopwords", stopwords)

badword_regexes = [
    r"pede",
    r"loll(akas|id)?",
    r"t(s|š)mir",
    r"pers+e(s)?",
    r"munn(i|id)?",
    r"kaka(junn)?",
    r"noku",
    r"pede(d|kas)?",
    r"vitt(u)?",
    r"pask",
    r"homo(d)?",
    r"puts(i)?",
    r"pederast(id)?",
    r"sitt(a)?",
    r"lits(id)?",
    r"pihku",
    r"türa",
    r"jobu",
    r"sita(ne|junn)?",
    r"vitupea",
    r"neeger",
    r"nigga",
    r"junn(i)?",
    r"kepp(is|i|ida)?",
    r"tuss"
]

badwords = RegexMatches(name + ".badwords", badword_regexes)
"""
:class:`~revscoring.languages.features.RegexMatches` features via a list of
badword detecting regexes.
"""

informal_regexes = [
    r"lol(l)?"
    r"yolo",
    r"jou",
    r"raisk",
    r"tere",
    r"suht",
    r"haha",
    r"tsau",
    r"tegelt",
    r"sakib",
    r"noob",
    r"hahaha",
    r"räme",
    r"ilge",
    r"lahe",
    r"hmm"
]

informals = RegexMatches(name + ".informals", informal_regexes)
"""
:class:`~revscoring.languages.features.RegexMatches` features via a list of
informal word detecting regexes.
"""

Revision Scoring

Navigation