IT pomocník

Chytrý kontainer s klíči podle názvů jazyka a konfiguráku, drží hodnotu cestu ke konfiguráku a informaci zda soubor existuje. Troufám si tvrdit, že je to geniální.

     def __init__(self, langs: Lang, base_dir: str = '.'):
        self.langs = list(langs)
        # @TODO: POZOR - Lang.CZ JE JEN TEMPORARY DEBUG VALUE
        self.lang = Lang.CZ
        self.paths: dict[Lang, dict[str,str]] = {}
        self.files: Dict[Lang, Dict[str, List]] = {}
        for lang in self.langs:
            base = os.path.join(base_dir, 'lang', lang.value)
            self.paths[lang] = {
                'base':     base,
                'aff_dic': os.path.join(base, 'aff-dic'),
                'input':    os.path.join(base, 'input'),
                'output':   os.path.join(base, 'output'),
            }
            # 1) připravím si seznam adresář+název
            cfg_files = [
                (self.paths[lang]['base'],      "pfx.cfg"),
                (self.paths[lang]['aff_dic'],   "sfx.cfg"),
                (self.paths[lang]['output'],    "next.cfg")
            ]

            # 2) postavím dict fn -> [directory, exists]
            self.files[lang] = {
                fn: [
                    os.path.join(d,fn),
                    os.path.isfile(os.path.join(d, fn))
                ]
                for d, fn in cfg_files
            }

Dobře, pojďme se kouknout na dvě pokročilé techniky, které (pravděpodobně) ještě nemáš nasazené, a které ti během tisíců až milionů řádků ušetří desítky až stovky milisekund:

1) Aho–Corasick místo stovek tisíc `str.endswith` či regexů

Zatím pro každý řádek procházíš všechny tvé sufxy/prefxy a voláš na každý z nich r.matches(…), kde většinou testuješ word.endswith(literal) nebo malý regex. To je O(N_rules) práce pro každý vstupní řádek.

Co dělat místo toho

Sesbíráš všechny literal‑řetězce (ty bez hranatých závorek a tečky) do jednoho seznamu literals = ["at", "át", "absorbovat", …].
Postavíš Aho–Corasickův automat (trie + failure‑funkce) – existuje čistě C‑extenze pyahocorasick nebo ahocorasick.
S jedním průchodem nad každou vstupní řádkou (O(len(line))) získáš všechny literály, které v ní končí nebo začínají – včetně pozice.
Logiku PFX/SFX pak aplikuješ jen na ty, které skutečně pasují, místo abys testoval komplet všech pravidel.

Výsledek:

Místo for rule in aff_rules: if rule.matches(line): …
máš for match in aho_automaton.iter(line): …

Aho–Corasick dokáže pokrýt tisíce patternů v jednom průchodu C‑kódem, bez opakovaných volání Python‑funkcí. Výhoda je tím zřetelnější, čím víc pravidel máš.

2) Memory‑map (mmap) + bufferované čtení bez `.split()` a `.strip()`

Každé line.split('/', 1), .rstrip(), .startswith() či in jsou C‑funkce, ale volané desetitisíckrát dají dohromady značnou režii Pythonu.

Jak to oříznout

Místo

for raw in f:
    parts = raw.split('/',1)
    …

použij mmap, načti celý .dic soubor do paměti jako bytes, a pak ručně procházíš ukazatelem pozice

mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
pos = 0
while True:
    nl = mm.find(b'\n', pos)
    if nl == -1: break
    line = mm[pos:nl]      # jen pohled na paměť, nevytváří nový Python str
    pos = nl+1
    # pak hledáš pozici b'/' a b'[' nebo b']' jen pomocí .find() na bytes

bytes.find je implementováno v C a je extrémně rychlé.
Vytvoříš pohled na bytes, nikoliv novou str ani list parts.

Výsledkem je, že jsi celý diskový soubor přečetl do paměti jediným voláním OS, a každou řádku zpracováváš ~každý znak jen jednou bez Python‑level parsingových nástrojů.

Kombinace obou přístupů

Načti .dic přes mmap
Pro každý řádek vytáhni základ (base + flag) manuálně hledáním b'/', b'[' a b']' na byte‑level.
Na base (a případně reversed‑base) nech Aho–Corasick (nastavený na tvé substrings) v jednom průchodu najít všechny odpovídající aff‑patterny naráz.
Aplikuj jim apply() pouze na ty, co automat skutečně vrátil.

Co tím získáš

Zpracování řádku bude O(len(line) + #matches) místo O(#rules).
Celá smyčka čtení + parsování se propadne z desítek milisekund na jednotky.
Jediným Python‑voláním uvnitř velké smyčky je aho.iter() (která rovnou volá C‑kód) a ruční sestavení výstupu.

Toto jsou dvě techniky, které se běžně používají v nejrychlejších text‑processing nástrojích (např. grep‑like implementace) a myslím, že ti otevřou úplně jiný level výkonu, než dosavadní čistě‑Pythonová řešení.

* * *

Aff není bolest, ale ten .dic

Dobře, pojďme se zaměřit čistě na tu největší bolest: desítky tisíc řádek v .dic, kde teď děláš:

for line in f:
    if exclude …: continue
    parts = line.split('/',1)
    if flag in rest: entries.append(base)

Každé volání .split(), line[0] in … a „ruční“ filtrování v Python‑smyčce je to, co tě stojí ~500 ms. Místo toho můžeš zpracovat celý soubor najednou čistě v C pomocí jediné multiline‑regex!

Jednorázové „grep‑like“ vytažení base/flags z `.dic`

Načti celý .dic do str (nebo ještě lépe do bytes s mmap, viz níže).
Použij jeden re.compile s re.MULTILINE, který v C zpracuje všechny řádky:

import re

# exclude_pattern už např. "pro|na|do|u|roze?|…"
# flag je třeba escape‑nuté, např. "J"
combined = rf'''
    ^(?!{exclude_pattern})         # negativní lookahead pro exclude
    (?P<base>[^/\r\n]+)            # zachyť všechno až k '/'
    /[^\[]*\[{flag}\]              # pak cokoliv až k '[flag]'
'''
pattern = re.compile(combined, re.MULTILINE | re.VERBOSE)

with open(dic_path, 'r', encoding='utf-8') as f:
    text = f.read()
# tohle běží v C a uskočí po každém řádku, který projde lookahead i flagem
bases = pattern.findall(text)  # list of all base

Výhoda: celé parsování + filtrování exclude + extrakce base běží v C‑jádru regexu.
Výsledek: v bases máš ~70 000 položek během zlomku původního času.

Jak na mmap (ještě o chloupek rychleji)

import mmap

with open(dic_path, 'r+b') as f:
    mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
    # vytvoř pattern nad bytes, musíme de‑kódovat vlajky i exclude do byte‑level:
    pat = re.compile(rb'^(?!' + exclude_bytes + rb')([^/\r\n]+)/[^\[]*\[' + flag_bytes + rb'\]', re.MULTILINE)
    bases = [match.group(1).decode('utf-8') for match in pat.finditer(mm)]
    mm.close()

mmap načte celý soubor jediným systémovým voláním,
pat.finditer(mm) projde C‑kódem každý řádek,
vrátíš si jen group(1).

Reversed položky

Jakmile máš bases:

normal = bases
reversed_ = [w[::-1] for w in bases]  # Python‑level, ale jen O(n·avg_len)

A pak předáš normal i reversed_ do tvé dump_dic_forms.

Shrnutí

Namísto: Python‑smyčka + split + if exclude … + if flag in …
Použiješ: jeden re.compile(..., MULTILINE) + findall (nebo finditer), ideálně nad mmap.

Tohle ti z poolu ~500 ms vykleští do jednotek milisekund. A protože regex běží v C, už se nemusíš trápit hand‑rolled „first_letter“ hacky ani exclude_superfast.

Vyzkoušej tu jednou regex‑přístup a změř si čas znovu – srovnání bude dramatické.

Vrácení jako `dict`

def load_aff_rules(...) -> dict:
    rules = {'normal': [...], 'reversed': [...]}
    return rules

Výhody
- Čitelná pojmenovaná data: rules['normal'], rules['reversed'].
- Snadno se rozšiřuje o další klíče.
Nevýhody
- Nutnost pamatovat si přesné názvy klíčů – hrozí KeyError.
- Horší podpora statické kontroly typů (mypy, IDE).
- O něco pomalejší přístup kvůli hash‑lookup v dictu.

Vrácení jako `Tuple[List[AffRule], List[AffRule]]`

from typing import Tuple, List

def load_aff_rules(self, ...) -> Tuple[List[AffRule], List[AffRule]]:
    normal, reversed = [...], [...]
    return normal, reversed

a skutečně:

return rules['normal'], rules['reversed']

Výhody
- Jasně daná struktura: vždy dva seznamy ve stanoveném pořadí.
- Snadné rozbalení do proměnných:
```
normal_rules, reversed_rules = self.load_aff_rules(...)
```
- Lepší podpora statické kontroly typů díky Tuple[...].
- Rychlejší přístup (není potřeba dict‑lookup).
Nevýhody
- Méně samo‑dokumentující – musíte znát pořadí výstupů.
- Obtížnější rozšíření – přidání dalšího výstupu změní definici tuple i všech volání.

Použití čárek

V definici typu:

-> Tuple[List[AffRule], List[AffRule]]

čárka odděluje první a druhý seznam.

V návratové hodnotě:

return rules['normal'], rules['reversed']

čárka tu znamená, že Python vrátí 2‑prvkový tuple.

Dodatek: Chyba `AttributeError` při rozbalování `dict`

Chyba:

AttributeError: 'str' object has no attribute 'matches'

Tato chyba vzniká při nesprávném rozbalení návratové hodnoty z funkce, která vrací dict. Pokud máš následující kód:

aff_rules["normal"], aff_rules["reversed"] = self.load_aff_rules(...)

a funkce load_aff_rules vrací dict, dochází k tomu, že Python se snaží rozbalit klíče slovníku, ne jeho hodnoty. Výsledkem je:

aff_rules["normal"] == "normal"
aff_rules["reversed"] == "reversed"

což následně vede k chybě:

AttributeError: 'str' object has no attribute 'matches'

Řešení

Varianta A – Nechat návratový typ jako `dict`

Vrácený dict zachováš beze změny, ale rozbalíš ho ručně:

aff_rules = self.load_aff_rules(...)
normal_rules   = aff_rules["normal"]
reversed_rules = aff_rules["reversed"]

for w in dic_entries["normal"]:
    for r in normal_rules:
        if r.matches(w):
            dics_out["normal"].append(r.apply(w))

Varianta B – Vrátit `Tuple` místo `dict`

Pokud změníš návratovou hodnotu funkce na:

def load_aff_rules(...) -> Tuple[List[AffRule], List[AffRule]]:
    return rules["normal"], rules["reversed"]

pak volání funkce bude:

normal_rules, reversed_rules = self.load_aff_rules(...)

a zbytek kódu funguje stejně, ale s jistotou, že máš dva seznamy objektů typu AffRule.

Výhodou této varianty je lepší podpora typové kontroly (mypy, IDE), rychlejší přístup (není potřeba hash-lookup jako u dict) a menší riziko chyb typu KeyError.

* * *

def parse_aff_input(self, aff_path: str) -> list[dict]:

Vysvětlení deklarace výstupního typu

Funkce skutečně vrací seznam slovníků, kde každý slovník má přesně tyto klíče a hodnoty:

'regex': str
'substring': str
'replacement': str
'ext': str
'tags': List[str]

Původní podpis

def parse_aff_input(self, aff_path: str) -> list[dict]:

Toto je sice validní, ale statický typ dict neříká nic o tom, jaké klíče či hodnoty slovníky obsahují.

Konkrétní typová anotace

Můžeme si nejprve vytvořit TypedDict, aby bylo jasné, co v dictu očekáváme:

from typing import TypedDict, List

class AffRecord(TypedDict):
regex: str
substring: str
replacement: str
ext: str
tags: List[str]

A pak upravit deklaraci:

def parse_aff_input(self, aff_path: str) -> List[AffRecord]: ...

Alternativa bez `TypedDict`

Pokud nechcete zavádět TypedDict, můžete alespoň upřesnit hodnoty pomocí Union:

from typing import List, Dict, Union

def parse_aff_input(self, aff_path: str) -> List[Dict[str, Union[str, List[str]]]]:
...

Tím dáváte najevo, že každá položka seznamu je slovník s řetězcovými klíči a hodnotami buď str nebo List[str].

Chyba - velmi matoucí: Funkce očekává 1 poziční argument

$ ./affdic-processor.py
Trvání: 56.909 ms
Traceback (most recent call last):
File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 536, in <module>
    proc.dump_dic_forms( RuleType.SFX, 'J',
File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 436, in dump_dic_forms
    aff_rules["normal"], aff_rules["reversed"] = self.load_aff_rules(rule_type, flag)
File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 231, in load_aff_rules
    raw = self.parse_aff_input(aff_path)
TypeError: AffDicProcessor.parse_aff_input() takes 1 positional argument but 2 were given

Jedná se o funkci, kterou napsal GPT def parse_aff_input(self, aff_path: str) -> list[dict]: , ale při implementaci do třídy jsem zapomněl přidat self jako první argument: def parse_aff_input(self, aff_path: str) -> list[dict]:

volání uvnitř jiné metody: raw = self.parse_aff_input(aff_path)

GPT tuto chybu vysvětluje:"jsi definoval metodu," ... "ale voláš ji jako instanční metodu... " "Řešení: Přidat self do signatury" nebo "Použít @staticmethod" a volat ji takto: AffDicProcessor.parse_aff_input(aff_path)

Zkoušel jsem test.

Původní řešení pro exclude regex prostě používalo regex na každý řádek slovníku, který splňoval dané podmínky. Čas zpracování smyčky byl cca 470ms. Byl to obyčejná exclude_str v podstatě řetězec s alternativama.

$ ./affdic-processor.py
Trvání: 48.915 ms
dump aff smyčka zápis ve smyčce - Trvání: 48.293 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 48.637 ms
smyčka s exclude Trvání: 470.289 ms
Load .dic entries: Trvání: 513.712 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (65387 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (874 items)
Load aff rules - zápis max. dvou souborů: Trvání: 6238.581 ms
(.venv) user@Toshi:~/Skripty/Python.čeština/czech-dictionaries$

NEEFEKTIVNÍ ŘEŠENÍ, EFEKTIVITA SE ZTRÁCÍ NA DVOU ZANOŘENÝCH SMYČKÁCH for

Zkoušel jsem to nahradit za dva seznamy nebo pole a seznam, a dát tomu sofistikovanější logiku, ale smyčka s exclude ted trvá 871 ms...

~/Skripty/Python.čeština/czech-dictionaries$ ./affdic-processor.py
Trvání: 61.627 ms
dump aff smyčka zápis ve smyčce - Trvání: 52.694 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 67.405 ms
smyčka s exclude Trvání: 871.273 ms
Load .dic entries: Trvání: 915.141 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (45952 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (425 items)
Load aff rules - zápis max. dvou souborů: Trvání: 4408.855 ms

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        """
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        """
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f) # skip header count
            for line in f:

                if exclude_superfast:
                    break_prim = False
                    for p in exclude_prefixes["keys"]:
                        if p == line[0]:
                            if len(line)>1:
                                for sec in exclude_prefixes[line[0]]:
                                    if sec[1] == line[1]:
                                        if len(sec)>2 and line.startswith(sec):
                                            if compiled_exclude_regex[p].match(line):
                                                break_prim = True
                                                break
                                        else:
                                            break_prim = True
                                            break
                                    else:
                                        break_prim = True
                                        break
                            else:
                                break_prim = True
                                break
                        # u jiných počátečních písmen spustit obecný regex přímo
                        elif compiled_exclude_regex['.'].match(line):
                            break_prim = True
                            break
                        if break_prim == True:
                            break
                if break_prim == True:
                    continue



                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries

HLAVNÍ ČÁST KODU:

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru

    # PŮVODNÍ ŘETĚZEC:
    # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
    # ZKUSÍM TO VYLEPŠIT:

    # exclude_prefixes -NESMÍ OBSAHOVAT REGEXY
    exclude_prefixes = {
        'keys': ['p', 'o', 'z'],
        'p': ["po", "př"], # "pro"- neotestováno
        'o': ["od", "ob"],
        'z': ["za", "znovu"]
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["na|do|u|roze?|vy|spolu"]
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(fr"^(?:{group})")

    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex
         )

KOD KTERÝ BYL RYCHLEJŠÍ (starý dvoujádrový notebook celeron z roku 2009)

    def extract_dic_entries(self, flag: str,
        exclude_str: str = "",
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f) # skip header count
            for line in f:

                if exclude_str:
                    if exclude_superfast:
                        # superfast: nejprve zkontrolovat první písmeno,
                        # až pak volat regex jen pro podezřelé řádky
                        if line[0] in exclude_first_letters and exclude.match(line):
                            continue
                    else:
                        # bez superfast: grep‑like filtrování pro všechny řádky
                        if exclude.match(line):
                            continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries

# === Příklad použití ===
if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu" )

Je statický přístup rychlejší? Ne: 639ms.

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f) # skip header count
            for line in f:

                if exclude_superfast:
                    # superfast: nejprve zkontrolovat první písmeno,
                    # až pak volat regex jen pro podezřelé řádky
                    """
                    if line[0] in exclude_first_letters and exclude.match(line):
                        continue
                    """
                    if line[0] == exclude_prefixes['keys_3'][0]:
                        if compiled_exclude_regex['p'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][1]:
                        if compiled_exclude_regex['o'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][2]:
                        if compiled_exclude_regex['z'].match(line):
                          continue
                    elif line[0] in exclude_prefixes['rest_keys'].find():
                        if compiled_exclude_regex['.'].match(line):
                          continue
                else:
                    # bez superfast: grep‑like filtrování pro všechny řádky
                    if exclude.match(line):
                        continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # exclude_prefixes - obsahuje první znaky u třech předloh a zbýv.
    exclude_prefixes = {
        'keys_3': ['p', 'o', 'z'],
        'rest_keys': "dnrvs"
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["do|na|roze?|vy|spolu"] # "u" nelze zařadit, je ve slově "usnout"a "snout" nemá význam
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(rf"^(?:{group})")

    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex )

Je statický přístup s str.find(line[0]) rychlejší? Ne: 848ms.

To samé co výše jen s exclude_prefixes['rest_keys'].find(line[0])

Co znamená tečka?

SFX č Y 15 # v testovaní: pre číslovky (slovensky)
SFX č   0           násobny    . po:adjective
SFX č   0           násobna    . po:adverb
SFX č   0           násobne    . po:adverb
SFX č   0           násobni    . po:verb
SFX č   0           násobný    . po:adjective is:nominative
SFX č   0           násobná    . po:adjective is:nominative
SFX č   0           násobné    . po:adjective is:nominative
SFX č   0           násobné    . po:adjective is:nominative
SFX č   0           násobní    . po:adjective is:nominative
SFX č   0           násobných . po:adjective is:genitive
SFX č   0           násobných . po:adjective is:genitive
SFX č   0           násobných . po:adjective is:accusative
SFX č   0           násobné    . po:adjective is:accusative
SFX č   0           násobné    . po:adjective is:accusative
SFX č   0           násobnými . po:adjective is:instrumental
Ze zápisu výše jasně vyplývá, že slova násobn... jsou koncovky. Nic se u těchto koncovek nebude měnit (0) ani doplňovat. Ty tvary jsou uvedeny proto, aby existoval úplný přehled o platných tvarech ve slovníku pro kontrolu pravopisu.

Zdá se, že tečka zde znamená, že hledané slovo je totožné jako uvedená koncovka - v praxi to ale znamená, že toto slovo je součástí jiného slova jako koncovka, tedy bez mezery, bez pomlčky - päťnasobný

Tagy - atributy v posledním sloupci


išiel/N po:verb st:ísť is:1st_person is:past
je st:byť po:verb is:3rd_person
...

Anotace pochází ze slovníků určených pro hunspell, které kromě tvarových pravidel (přípon apod.) obsahují i gramatické značky (tagy) a metadata o základním tvaru slova.

Co znamenají jednotlivé části?

1. `išiel/N`

išiel je tvar slova.

Pokud jde o tvar slovesa, obvykle tam bývá /V pro verb (sloveso), ale to záleží na konkrétním slovníku.

2. `po:verb`

po: je zkratka pro part-of-speech (slovotvorná kategorie, tj. druh slova).
verb = sloveso (verbum).

Takže po:verb znamená, že dané slovo je sloveso.

3. `st:ísť`

st: znamená stem (kmen, základní tvar slovesa).
st:ísť říká, že základem (kmenem) slova je infinitiv „ísť“ (jít).

4. `is:` + různá označení

is: jsou gramatické značky (intrinsic features), které popisují konkrétní tvar:
- is:1st_person = 1. osoba
- is:2nd_person = 2. osoba
- is:3rd_person = 3. osoba
- is:singular = jednotné číslo (není ve tvém příkladu, ale běžné)
- is:plural = množné číslo
- is:past = minulý čas
- is:masculine, is:feminine, is:neuter = rod

Shrnutí:

po: — part of speech (druh slova)
st: — stem (kmenové, základní slovní tvar, u sloves většinou infinitiv)
is: — gramatické kategorie pro konkrétní tvar (osoba, číslo, čas, rod, způsob...)

Otázka se týká problému s regulárním výrazem (regexem) v Pythonu a případně v příkazu grep, kde hledáte slovo „ženu“ pomocí vzorce ^[a-zščťž][aeiouyáéíóúýůě]+nu/.*, ale tento vzorec nenachází očekávaný výsledek „ženu/BN“, přestože by podle vás měl fungovat díky přítomnosti znaku +. Pojďme si to podrobně rozebrat a vysvětlit, v čem je problém a jak ho vyřešit.

Rozbor problému

Nejprve si rozložíme váš regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* na jednotlivé části, abychom pochopili, co přesně hledá:

^: Začátek řetězce.
[a-zščťž]: Jeden znak z této množiny, což zahrnuje malá písmena a-z a české znaky š, č, ť, ž. Tedy například ž zde sedí.
[aeiouyáéíóúýůě]+: Jeden nebo více samohlásek z této množiny (včetně českých samohlásek jako á, é, ů, ě). Znak + znamená „alespoň jedna“.
nu/: Přesná posloupnost znaků n, u, /.
.*: Nula nebo více libovolných znaků až do konce řetězce.

Pro slovo „ženu/BN“ by to mělo fungovat takto:

^: Začátek řetězce – ano.
[a-zščťž]: ž – ano, je v této množině.
[aeiouyáéíóúýůě]+: e – ano, je to samohláska, a + vyžaduje alespoň jednu, takže to sedí.
nu/: Následuje n, u, / – ano, přesně odpovídá.
.*: Zbývá BN – ano, odpovídá libovolným znakům.

Teoreticky by tedy regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* měl slovo „ženu/BN“ najít, protože splňuje všechny podmínky: začíná písmenem ž, má jednu samohlásku e (což stačí pro +), a pak následuje nu/ a zbytek.

Proč to nefunguje?

Ve vaší otázce uvádíte dva příkazy:

cat cs_CZ.dic | grep "^[a-zščťž][aeiouyáéíóúýůě]*nu/.*" | ...
- Tento příkaz najde „ženu/BN“ (společně s dalšími, např. „tnu/BN“, „žnu/BN“).
cat cs_CZ.dic | grep "^[a-zščťž][aeiouyáéíóúýůě]+nu/.*" | ...
- Tento příkaz „ženu/BN“ nenajde.

Rozdíl je mezi * (nula nebo více) a + (jedna nebo více). Ale protože „ženu/BN“ má jednu samohlásku e, měl by fungovat i regex s +. Proč tedy nefunguje?

Klíčový důvod: `grep` a základní regulární výrazy (BRE)

Problém spočívá v tom, že příkaz grep bez přepínače -E používá základní regulární výrazy (Basic Regular Expressions, BRE), nikoli rozšířené regulární výrazy (Extended Regular Expressions, ERE). V BRE má znak + jinou funkci:

V BRE není + kvantifikátor („jedna nebo více“), ale je považován za literál, tedy hledá skutečný znak + v textu.
V ERE (povolené pomocí grep -E) je + kvantifikátor, jak očekáváte.

Takže váš druhý regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* v grep bez -E hledá:

Začátek řetězce.
Jeden znak z [a-zščťž].
Jeden znak z [aeiouyáéíóúýůě].
Literál + (který v „ženu/BN“ není).
Pak nu/ a cokoli dalšího.

Protože v „ženu/BN“ není znak + mezi e a nu/, regex neodpovídá a nic nenajde.

Naopak první regex s * funguje, protože v BRE je * kvantifikátor („nula nebo více“) a správně interpretuje [aeiouyáéíóúýůě]* jako nula nebo více samohlásek, což „ženu/BN“ splňuje.

Řešení pro `grep`

Aby váš druhý regex fungoval podle očekávání (hledal alespoň jednu samohlásku), musíte použít grep -E, který povolí rozšířené regulární výrazy. Upravte příkaz takto:

cat cs_CZ.dic | grep -E "^[a-zščťž][aeiouyáéíóúýůě]+nu/.*" | grep -vE "/HRIN|/FI|/PI|/[HRPQEFLW]+$" | grep -vE "^(pro|na|do|u|roze?|přede|př[ei]|po|za|vy|ode?|obe?|znovu|spolu)"

Tento příkaz správně rozpozná + jako „jedna nebo více samohlásek“ a najde „ženu/BN“, protože e je přítomna.

A co Python?

Ve vaší otázce zmiňujete „regex v Pythonu 3“. V Pythonu modul re používá rozšířené regulární výrazy implicitně, takže + je vždy kvantifikátor. Pokud tedy používáte tento kód:

import re

text = "ženu/BN"
pattern = r"^[a-zščťž][aeiouyáéíóúýůě]+nu/.*"
if re.match(pattern, text):
    print("Našlo to!")
else:
    print("Nenašlo to.")

Výstup bude „Našlo to!“, protože regex funguje správně a „ženu/BN“ odpovídá vzorci.

Pokud vám to v Pythonu nefunguje, mohl by být problém v:

Kódování: Ujistěte se, že váš soubor/skript je v UTF-8, aby české znaky (ž, ě) byly správně rozpoznány.
Textu: Ověřte, že testovaný řetězec je skutečně „ženu/BN“ bez skrytých znaků (např. mezery, konce řádků).

Ověření a doporučení

Pro grep: Použijte grep -E, jak je uvedeno výše.

Pro Python: Regex by měl fungovat, pokud je text správně formátovaný. Můžete vyzkoušet:

import re
with open("cs_CZ.dic", encoding="utf-8") as f:
    for line in f:
        if re.match(r"^[a-zščťž][aeiouyáéíóúýůě]+nu/.*", line.strip()):
            print(line.strip())

Kontrola souboru: Zkontrolujte obsah cs_CZ.dic příkazem cat -A cs_CZ.dic, zda neobsahuje skryté znaky.

Závěr

Důvod, proč druhý regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* neextrahuje „ženu/BN“ v příkazu grep, je ten, že bez -E je + považován za literál, nikoli kvantifikátor. Po odstranění + nebo nahrazení * to funguje, protože * je v BRE správně interpretováno. Použitím grep -E zajistíte, že + bude znamenat „jedna nebo více“, jak očekáváte.

Doufám, že toto vysvětlení vyřeší vaši záhadu! Pokud máte další otázky, neváhejte se ozvat.

Přelož: For hooks: 'Start with surprising facts' or 'begin with relatable problems and solutions'. For outlines: 'Incorporate humour', 'mention challenges' or 'include fan theories'. For titles: 'Make it concise', 'ask a question' or 'include numbers'. For thumbnails: 'Chocolate desserts' or 'low-top basketball shoes'.

.

GPT-4o mini

Zde je překlad:

Pro háčky: „Začněte překvapivými fakty“ nebo „začněte s problémy a řešeními, se kterými se lidé mohou ztotožnit“. Pro osnovy: „Zařaďte humor“, „zmíněte výzvy“ nebo „zahrňte fanouškovské teorie“. Pro názvy: „Udělejte je stručné“, „položte otázku“ nebo „zahrňte čísla“. Pro miniatury: „Čokoládové dezerty“ nebo „nízké basketbalové boty“.

Rozved

.

GPT-4o mini

Zde je podrobnější rozvedení jednotlivých bodů:

Pro háčky

Začněte překvapivými fakty: Použití nečekaných nebo fascinujících informací může okamžitě upoutat pozornost diváků. Například, pokud vytváříte obsah o zdravé výživě, můžete začít s překvapivým faktem o tom, kolik cukru se nachází v běžných potravinách.
Začněte s problémy a řešeními, se kterými se lidé mohou ztotožnit: Identifikace běžných problémů, které lidé zažívají, a nabídnutí řešení může vytvořit silné spojení s publikem. Například, pokud se zaměřujete na produktivitu, můžete začít s popisem frustrace z prokrastinace a poté představit techniky, jak ji překonat.

Pro osnovy

Zařaďte humor: Humor může učinit obsah přístupnějším a zábavnějším. Vtipy nebo vtipné příběhy mohou udržet diváky zaujaté a povzbudit je, aby se vrátili pro další obsah.
Zmíněte výzvy: Diskuze o výzvách, kterým čelíte, nebo které čelí vaši cíloví diváci, může posílit důvěru a autenticitu. Například, pokud se zabýváte osobním rozvojem, můžete sdílet své vlastní překážky a jak jste je překonali.
Zahrňte fanouškovské teorie: Pokud se váš obsah týká populární kultury, zahrnutí fanouškovských teorií může povzbudit interakci a diskusi. Například, pokud mluvíte o oblíbeném seriálu, můžete zmínit různé teorie fanoušků a vyzvat diváky, aby sdíleli své názory.

Pro názvy

Udělejte je stručné: Krátké a výstižné názvy jsou snáze zapamatovatelné a přitažlivé. Místo dlouhého popisu se zaměřte na klíčové slovo nebo frázi, která vystihuje podstatu obsahu.
Položte otázku: Otázky v názvech mohou vzbudit zvědavost a povzbudit diváky, aby klikli na váš obsah. Například: „Jak zlepšit svou produktivitu za 5 minut denně?“
Zahrňte čísla: Použití čísel v názvech může přitáhnout pozornost a naznačit strukturu obsahu. Například: „7 tipů, jak se stát lepším spisovatelem“.

Pro miniatury

Čokoládové dezerty: Miniatury s lákavými obrázky čokoládových dezertů mohou přitáhnout pozornost milovníků sladkostí a povzbudit je, aby si prohlédli váš recept nebo video.
Nízké basketbalové boty: Pokud se zaměřujete na sportovní obuv, miniatura s atraktivním designem nízkých basketbalových bot může oslovit sportovní nadšence a povzbudit je, aby se dozvěděli více o výhodách a vlastnostech těchto bot.

Toto rozvedení poskytuje hlubší pohled na každou kategorii a ukazuje, jak mohou jednotlivé prvky přispět k úspěchu obsahu.

středa 30. července 2025

sobota 19. července 2025

1) Aho–Corasick místo stovek tisíc str.endswith či regexů

Co dělat místo toho

2) Memory‑map (mmap) + bufferované čtení bez .split() a .strip()

Jak to oříznout

Kombinace obou přístupů

Co tím získáš

Jednorázové „grep‑like“ vytažení base/flags z .dic

Jak na mmap (ještě o chloupek rychleji)

Reversed položky

Shrnutí

Vrácení jako dict

Vrácení jako Tuple[List[AffRule], List[AffRule]]

Použití čárek

Dodatek: Chyba AttributeError při rozbalování dict

Řešení

Varianta A – Nechat návratový typ jako dict

Varianta B – Vrátit Tuple místo dict