sobota 19. července 2025

Python: Přístup Aho–Corasick & Memory‑map (mmap) + bufferované čtení bez .split() a .strip()

 

Dobře, pojďme se kouknout na dvě pokročilé techniky, které (pravděpodobně) ještě nemáš nasazené, a které ti během tisíců až milionů řádků ušetří desítky až stovky milisekund:


1) Aho–Corasick místo stovek tisíc str.endswith či regexů

Zatím pro každý řádek procházíš všechny tvé sufxy/prefxy a voláš na každý z nich r.matches(…), kde většinou testuješ word.endswith(literal) nebo malý regex. To je O(N_rules) práce pro každý vstupní řádek.

Co dělat místo toho

  1. Sesbíráš všechny literal‑řetězce (ty bez hranatých závorek a tečky) do jednoho seznamu literals = ["at", "át", "absorbovat", …].

  2. Postavíš Aho–Corasickův automat (trie + failure‑funkce) – existuje čistě C‑extenze pyahocorasick nebo ahocorasick.

  3. S jedním průchodem nad každou vstupní řádkou (O(len(line))) získáš všechny literály, které v ní končí nebo začínají – včetně pozice.

  4. Logiku PFX/SFX pak aplikuješ jen na ty, které skutečně pasují, místo abys testoval komplet všech pravidel.

Výsledek:

  • Místo for rule in aff_rules: if rule.matches(line): …

  • máš for match in aho_automaton.iter(line): …

Aho–Corasick dokáže pokrýt tisíce patternů v jednom průchodu C‑kódem, bez opakovaných volání Python‑funkcí. Výhoda je tím zřetelnější, čím víc pravidel máš.


2) Memory‑map (mmap) + bufferované čtení bez .split() a .strip()

Každé line.split('/', 1), .rstrip(), .startswith() či in jsou C‑funkce, ale volané desetitisíckrát dají dohromady značnou režii Pythonu.

Jak to oříznout

  • Místo

    for raw in f:
        parts = raw.split('/',1)
        …
    

    použij mmap, načti celý .dic soubor do paměti jako bytes, a pak ručně procházíš ukazatelem pozice

    mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
    pos = 0
    while True:
        nl = mm.find(b'\n', pos)
        if nl == -1: break
        line = mm[pos:nl]      # jen pohled na paměť, nevytváří nový Python str
        pos = nl+1
        # pak hledáš pozici b'/' a b'[' nebo b']' jen pomocí .find() na bytes
    
    • bytes.find je implementováno v C a je extrémně rychlé.

    • Vytvoříš pohled na bytes, nikoliv novou str ani list parts.

Výsledkem je, že jsi celý diskový soubor přečetl do paměti jediným voláním OS, a každou řádku zpracováváš ~každý znak jen jednou bez Python‑level parsingových nástrojů.


Kombinace obou přístupů

  1. Načti .dic přes mmap

  2. Pro každý řádek vytáhni základ (base + flag) manuálně hledáním b'/', b'[' a b']' na byte‑level.

  3. Na base (a případně reversed‑base) nech Aho–Corasick (nastavený na tvé substrings) v jednom průchodu najít všechny odpovídající aff‑patterny naráz.

  4. Aplikuj jim apply() pouze na ty, co automat skutečně vrátil.


Co tím získáš

  • Zpracování řádku bude O(len(line) + #matches) místo O(#rules).

  • Celá smyčka čtení + parsování se propadne z desítek milisekund na jednotky.

  • Jediným Python‑voláním uvnitř velké smyčky je aho.iter() (která rovnou volá C‑kód) a ruční sestavení výstupu.


Toto jsou dvě techniky, které se běžně používají v nejrychlejších text‑processing nástrojích (např. grep‑like implementace) a myslím, že ti otevřou úplně jiný level výkonu, než dosavadní čistě‑Pythonová řešení.

* * *

Aff není bolest, ale ten .dic

Dobře, pojďme se zaměřit čistě na tu největší bolest: desítky tisíc řádek v .dic, kde teď děláš:

for line in f:
    if exclude …: continue
    parts = line.split('/',1)
    if flag in rest: entries.append(base)

Každé volání .split(), line[0] in … a „ruční“ filtrování v Python‑smyčce je to, co tě stojí ~500 ms. Místo toho můžeš zpracovat celý soubor najednou čistě v C pomocí jediné multiline‑regex!


Jednorázové „grep‑like“ vytažení base/flags z .dic

  1. Načti celý .dic do str (nebo ještě lépe do bytes s mmap, viz níže).

  2. Použij jeden re.compile s re.MULTILINE, který v C zpracuje všechny řádky:

import re

# exclude_pattern už např. "pro|na|do|u|roze?|…"
# flag je třeba escape‑nuté, např. "J"
combined = rf'''
    ^(?!{exclude_pattern})         # negativní lookahead pro exclude
    (?P<base>[^/\r\n]+)            # zachyť všechno až k '/'
    /[^\[]*\[{flag}\]              # pak cokoliv až k '[flag]'
'''
pattern = re.compile(combined, re.MULTILINE | re.VERBOSE)

with open(dic_path, 'r', encoding='utf-8') as f:
    text = f.read()
# tohle běží v C a uskočí po každém řádku, který projde lookahead i flagem
bases = pattern.findall(text)  # list of all base
  • Výhoda: celé parsování + filtrování exclude + extrakce base běží v C‑jádru regexu.

  • Výsledek: v bases máš ~70 000 položek během zlomku původního času.


Jak na mmap (ještě o chloupek rychleji)

import mmap

with open(dic_path, 'r+b') as f:
    mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
    # vytvoř pattern nad bytes, musíme de‑kódovat vlajky i exclude do byte‑level:
    pat = re.compile(rb'^(?!' + exclude_bytes + rb')([^/\r\n]+)/[^\[]*\[' + flag_bytes + rb'\]', re.MULTILINE)
    bases = [match.group(1).decode('utf-8') for match in pat.finditer(mm)]
    mm.close()
  • mmap načte celý soubor jediným systémovým voláním,

  • pat.finditer(mm) projde C‑kódem každý řádek,

  • vrátíš si jen group(1).


Reversed položky

Jakmile máš bases:

normal = bases
reversed_ = [w[::-1] for w in bases]  # Python‑level, ale jen O(n·avg_len)

A pak předáš normal i reversed_ do tvé dump_dic_forms.


Shrnutí

  • Namísto: Python‑smyčka + split + if exclude … + if flag in …

  • Použiješ: jeden re.compile(..., MULTILINE) + findall (nebo finditer), ideálně nad mmap.

Tohle ti z poolu ~500 ms vykleští do jednotek milisekund. A protože regex běží v C, už se nemusíš trápit hand‑rolled „first_letter“ hacky ani exclude_superfast.

Vyzkoušej tu jednou regex‑přístup a změř si čas znovu – srovnání bude dramatické.

 

Python: Rozdíl mezi vrácením Dict a vrácením Tuple - výhody, nevýhody

Vrácení jako dict

def load_aff_rules(...) -> dict:
    rules = {'normal': [...], 'reversed': [...]}
    return rules
  
  • Výhody
    • Čitelná pojmenovaná data: rules['normal'], rules['reversed'].
    • Snadno se rozšiřuje o další klíče.
  • Nevýhody
    • Nutnost pamatovat si přesné názvy klíčů – hrozí KeyError.
    • Horší podpora statické kontroly typů (mypy, IDE).
    • O něco pomalejší přístup kvůli hash‑lookup v dictu.

Vrácení jako Tuple[List[AffRule], List[AffRule]]

from typing import Tuple, List

def load_aff_rules(self, ...) -> Tuple[List[AffRule], List[AffRule]]:
    normal, reversed = [...], [...]
    return normal, reversed
  

a skutečně:

return rules['normal'], rules['reversed']
  • Výhody
    • Jasně daná struktura: vždy dva seznamy ve stanoveném pořadí.
    • Snadné rozbalení do proměnných:
      normal_rules, reversed_rules = self.load_aff_rules(...)
    • Lepší podpora statické kontroly typů díky Tuple[...].
    • Rychlejší přístup (není potřeba dict‑lookup).
  • Nevýhody
    • Méně samo‑dokumentující – musíte znát pořadí výstupů.
    • Obtížnější rozšíření – přidání dalšího výstupu změní definici tuple i všech volání.

Použití čárek

V definici typu:

-> Tuple[List[AffRule], List[AffRule]]

čárka odděluje první a druhý seznam.

V návratové hodnotě:

return rules['normal'], rules['reversed']

čárka tu znamená, že Python vrátí 2‑prvkový tuple.

Dodatek: Chyba AttributeError při rozbalování dict

Chyba:

AttributeError: 'str' object has no attribute 'matches'

 Tato chyba vzniká při nesprávném rozbalení návratové hodnoty z funkce, která vrací dict. Pokud máš následující kód:

aff_rules["normal"], aff_rules["reversed"] = self.load_aff_rules(...)

a funkce load_aff_rules vrací dict, dochází k tomu, že Python se snaží rozbalit klíče slovníku, ne jeho hodnoty. Výsledkem je:

  • aff_rules["normal"] == "normal"
  • aff_rules["reversed"] == "reversed"

což následně vede k chybě:

AttributeError: 'str' object has no attribute 'matches'

Řešení

Varianta A – Nechat návratový typ jako dict

Vrácený dict zachováš beze změny, ale rozbalíš ho ručně:

aff_rules = self.load_aff_rules(...)
normal_rules   = aff_rules["normal"]
reversed_rules = aff_rules["reversed"]

for w in dic_entries["normal"]:
    for r in normal_rules:
        if r.matches(w):
            dics_out["normal"].append(r.apply(w))

Varianta B – Vrátit Tuple místo dict

Pokud změníš návratovou hodnotu funkce na:

def load_aff_rules(...) -> Tuple[List[AffRule], List[AffRule]]:
    return rules["normal"], rules["reversed"]

pak volání funkce bude:

normal_rules, reversed_rules = self.load_aff_rules(...)

a zbytek kódu funguje stejně, ale s jistotou, že máš dva seznamy objektů typu AffRule.

Výhodou této varianty je lepší podpora typové kontroly (mypy, IDE), rychlejší přístup (není potřeba hash-lookup jako u dict) a menší riziko chyb typu KeyError

* * *

 

 

def parse_aff_input(self, aff_path: str) -> list[dict]:

Vysvětlení deklarace výstupního typu

Funkce skutečně vrací seznam slovníků, kde každý slovník má přesně tyto klíče a hodnoty:

  • 'regex': str
  • 'substring': str
  • 'replacement': str
  • 'ext': str
  • 'tags': List[str]

Původní podpis

def parse_aff_input(self, aff_path: str) -> list[dict]:

Toto je sice validní, ale statický typ dict neříká nic o tom, jaké klíče či hodnoty slovníky obsahují.

Konkrétní typová anotace

Můžeme si nejprve vytvořit TypedDict, aby bylo jasné, co v dictu očekáváme:

from typing import TypedDict, List

class AffRecord(TypedDict):
regex: str
substring: str
replacement: str
ext: str
tags: List[str]

A pak upravit deklaraci:

def parse_aff_input(self, aff_path: str) -> List[AffRecord]: ...

Alternativa bez TypedDict

Pokud nechcete zavádět TypedDict, můžete alespoň upřesnit hodnoty pomocí Union:

from typing import List, Dict, Union

def parse_aff_input(self, aff_path: str) -> List[Dict[str, Union[str, List[str]]]]:
...

Tím dáváte najevo, že každá položka seznamu je slovník s řetězcovými klíči a hodnotami buď str nebo List[str].

pátek 18. července 2025

Python: Chyba - method takes 1 positional argument but 2 were given

Chyba - velmi matoucí: Funkce očekává 1 poziční argument

$ ./affdic-processor.py
Trvání: 56.909 ms
Traceback (most recent call last):
  File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 536, in <module>
    proc.dump_dic_forms( RuleType.SFX, 'J',
  File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 436, in dump_dic_forms
    aff_rules["normal"], aff_rules["reversed"] = self.load_aff_rules(rule_type, flag)
  File "/home/user/Skripty/Python.čeština/czech-dictionaries/./affdic-processor.py", line 231, in load_aff_rules
    raw = self.parse_aff_input(aff_path)
TypeError: AffDicProcessor.parse_aff_input() takes 1 positional argument but 2 were given
 

Jedná se o funkci, kterou napsal GPT def parse_aff_input(self, aff_path: str) -> list[dict]: , ale při implementaci do třídy jsem zapomněl přidat self jako první argument: def parse_aff_input(self, aff_path: str) -> list[dict]:

volání uvnitř jiné metody: raw = self.parse_aff_input(aff_path)

GPT tuto chybu vysvětluje:"jsi definoval metodu," ... "ale voláš ji jako instanční metodu... " "Řešení: Přidat self do signatury" nebo "Použít @staticmethod" a volat ji takto: AffDicProcessor.parse_aff_input(aff_path)


čtvrtek 17. července 2025

Python: dají se regexy urychlit přeskočením pro zpracování mnoha řádků ve slovníku?

Zkoušel jsem test.

Původní řešení pro exclude regex prostě používalo regex na každý řádek slovníku, který splňoval dané podmínky. Čas zpracování smyčky byl cca 470ms. Byl to obyčejná exclude_str v podstatě řetězec s alternativama.

$ ./affdic-processor.py
Trvání: 48.915 ms
dump aff smyčka zápis ve smyčce - Trvání: 48.293 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 48.637 ms
smyčka s exclude Trvání: 470.289 ms
Load .dic entries: Trvání: 513.712 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (65387 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (874 items)
Load aff rules - zápis max. dvou souborů: Trvání: 6238.581 ms
(.venv) user@Toshi:~/Skripty/Python.čeština/czech-dictionaries$

NEEFEKTIVNÍ ŘEŠENÍ, EFEKTIVITA SE ZTRÁCÍ NA DVOU ZANOŘENÝCH SMYČKÁCH for

Zkoušel jsem to nahradit za dva seznamy nebo pole a seznam, a dát tomu sofistikovanější logiku, ale smyčka s exclude ted trvá 871 ms...

~/Skripty/Python.čeština/czech-dictionaries$ ./affdic-processor.py
Trvání: 61.627 ms
dump aff smyčka zápis ve smyčce - Trvání: 52.694 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 67.405 ms
smyčka s exclude Trvání: 871.273 ms
Load .dic entries: Trvání: 915.141 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (45952 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (425 items)
Load aff rules - zápis max. dvou souborů: Trvání: 4408.855 ms

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        """
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        """
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_superfast:
                    break_prim = False
                    for
p in exclude_prefixes["keys"]:
                        if p == line[0]:
                            if len(line)>1:
                                for sec in exclude_prefixes[line[0]]:
                                    if sec[1] == line[1]:
                                        if len(sec)>2 and line.startswith(sec):
                                            if compiled_exclude_regex[p].match(line):
                                                break_prim = True
                                                break
                                        else:
                                            break_prim = True
                                            break
                                    else:
                                        break_prim = True
                                        break
                            else:
                                break_prim = True
                                break
                        # u jiných počátečních písmen spustit obecný regex přímo
                        elif compiled_exclude_regex[
'.'].match(line):
                            break_prim = True
                            break
                        if break_prim == True:
                            break
                if break_prim == True:
                    continue

                                            
                                            



                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries


HLAVNÍ ČÁST KODU:

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru

    # PŮVODNÍ ŘETĚZEC:
    # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
    # ZKUSÍM TO VYLEPŠIT:
    
    # exclude_prefixes -NESMÍ OBSAHOVAT REGEXY
    exclude_prefixes = {
        'keys': ['p', 'o', 'z'],
        'p': ["po", "př"], # "pro"- neotestováno
        'o': ["od", "ob"],
        'z': ["za", "znovu"]
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["na|do|u|roze?|vy|spolu"]
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(fr"^(?:{group})")

    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex
         )

KOD KTERÝ BYL RYCHLEJŠÍ (starý dvoujádrový notebook celeron z roku 2009)


    def extract_dic_entries(self, flag: str,
        exclude_str: str = "",
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_str:
                    if exclude_superfast:
                        # superfast: nejprve zkontrolovat první písmeno,
                        # až pak volat regex jen pro podezřelé řádky
                        if line[0] in exclude_first_letters and exclude.match(line):
                            continue
                    else:
                        # bez superfast: grep‑like filtrování pro všechny řádky
                        if exclude.match(line):
                            continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries


# === Příklad použití ===
if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu" )

Je statický přístup rychlejší? Ne: 639ms.

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_superfast:
                    # superfast: nejprve zkontrolovat první písmeno,
                    # až pak volat regex jen pro podezřelé řádky
                    """
                    if line[0] in exclude_first_letters and exclude.match(line):
                        continue
                    """
                    if line[0] == exclude_prefixes['keys_3'][0]:
                        if compiled_exclude_regex['p'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][1]:
                        if compiled_exclude_regex['o'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][2]:
                        if compiled_exclude_regex['z'].match(line):
                          continue
                    elif line[0] in exclude_prefixes['rest_keys'].find():
                        if compiled_exclude_regex['.'].match(line):
                          continue
                else:
                    # bez superfast: grep‑like filtrování pro všechny řádky
                    if exclude.match(line):
                        continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # exclude_prefixes - obsahuje první znaky u třech předloh a zbýv.
    exclude_prefixes = {
        'keys_3': ['p', 'o', 'z'],
        'rest_keys': "dnrvs"
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["do|na|roze?|vy|spolu"] # "u" nelze zařadit, je ve slově "usnout"a "snout" nemá význam
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(rf"^(?:{group})")


    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex )

Je statický přístup s str.find(line[0]) rychlejší? Ne: 848ms.

To samé co výše jen s exclude_prefixes['rest_keys'].find(line[0])


úterý 15. července 2025

hunspell: Značení ve slovenském slovníku .dic

Co znamená tečka?

SFX č Y 15  # v testovaní: pre číslovky (slovensky)
SFX č   0           násobny    . po:adjective
SFX č   0           násobna    . po:adverb
SFX č   0           násobne    . po:adverb
SFX č   0           násobni    . po:verb
SFX č   0           násobný    . po:adjective is:nominative
SFX č   0           násobná    . po:adjective is:nominative
SFX č   0           násobné    . po:adjective is:nominative
SFX č   0           násobné    . po:adjective is:nominative
SFX č   0           násobní    . po:adjective is:nominative
SFX č   0           násobných  . po:adjective is:genitive
SFX č   0           násobných  . po:adjective is:genitive
SFX č   0           násobných  . po:adjective is:accusative
SFX č   0           násobné    . po:adjective is:accusative
SFX č   0           násobné    . po:adjective is:accusative
SFX č   0           násobnými  . po:adjective is:instrumental

Ze zápisu výše jasně vyplývá, že slova násobn... jsou koncovky. Nic se u těchto koncovek nebude měnit (0) ani doplňovat. Ty tvary jsou uvedeny proto, aby existoval úplný přehled o platných tvarech ve slovníku pro kontrolu pravopisu.

Zdá se, že tečka zde znamená, že hledané slovo je totožné jako uvedená koncovka - v praxi to ale znamená, že toto slovo je součástí jiného slova jako koncovka, tedy bez mezery, bez pomlčky - päťnasobný

Tagy - atributy v posledním sloupci


išiel/N po:verb st:ísť is:1st_person is:past je st:byť po:verb is:3rd_person ...

Anotace pochází ze slovníků určených pro hunspell, které kromě tvarových pravidel (přípon apod.) obsahují i gramatické značky (tagy) a metadata o základním tvaru slova.

Co znamenají jednotlivé části?

1. išiel/N

  • išiel je tvar slova.


Pokud jde o tvar slovesa, obvykle tam bývá /V pro verb (sloveso), ale to záleží na konkrétním slovníku.

2. po:verb

  • po: je zkratka pro part-of-speech (slovotvorná kategorie, tj. druh slova).

  • verb = sloveso (verbum).

Takže po:verb znamená, že dané slovo je sloveso.

3. st:ísť

  • st: znamená stem (kmen, základní tvar slovesa).

  • st:ísť říká, že základem (kmenem) slova je infinitiv „ísť“ (jít).

4. is: + různá označení

  • is: jsou gramatické značky (intrinsic features), které popisují konkrétní tvar:

    • is:1st_person = 1. osoba

    • is:2nd_person = 2. osoba

    • is:3rd_person = 3. osoba

    • is:singular = jednotné číslo (není ve tvém příkladu, ale běžné)

    • is:plural = množné číslo

    • is:past = minulý čas

    • is:masculine, is:feminine, is:neuter = rod

Shrnutí:

  • po: — part of speech (druh slova)

  • st: — stem (kmenové, základní slovní tvar, u sloves většinou infinitiv)

  • is: — gramatické kategorie pro konkrétní tvar (osoba, číslo, čas, rod, způsob...)

grep v základním režimu reg. expr. (BRE) nepoužívá kvantifikátor +

Otázka se týká problému s regulárním výrazem (regexem) v Pythonu a případně v příkazu grep, kde hledáte slovo „ženu“ pomocí vzorce ^[a-zščťž][aeiouyáéíóúýůě]+nu/.*, ale tento vzorec nenachází očekávaný výsledek „ženu/BN“, přestože by podle vás měl fungovat díky přítomnosti znaku +. Pojďme si to podrobně rozebrat a vysvětlit, v čem je problém a jak ho vyřešit.

Rozbor problému

Nejprve si rozložíme váš regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* na jednotlivé části, abychom pochopili, co přesně hledá:

  • ^: Začátek řetězce.
  • [a-zščťž]: Jeden znak z této množiny, což zahrnuje malá písmena a-z a české znaky š, č, ť, ž. Tedy například ž zde sedí.
  • [aeiouyáéíóúýůě]+: Jeden nebo více samohlásek z této množiny (včetně českých samohlásek jako á, é, ů, ě). Znak + znamená „alespoň jedna“.
  • nu/: Přesná posloupnost znaků n, u, /.
  • .*: Nula nebo více libovolných znaků až do konce řetězce.

Pro slovo „ženu/BN“ by to mělo fungovat takto:

  • ^: Začátek řetězce – ano.
  • [a-zščťž]: ž – ano, je v této množině.
  • [aeiouyáéíóúýůě]+: e – ano, je to samohláska, a + vyžaduje alespoň jednu, takže to sedí.
  • nu/: Následuje n, u, / – ano, přesně odpovídá.
  • .*: Zbývá BN – ano, odpovídá libovolným znakům.

Teoreticky by tedy regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* měl slovo „ženu/BN“ najít, protože splňuje všechny podmínky: začíná písmenem ž, má jednu samohlásku e (což stačí pro +), a pak následuje nu/ a zbytek.

Proč to nefunguje?

Ve vaší otázce uvádíte dva příkazy:

  1. cat cs_CZ.dic | grep "^[a-zščťž][aeiouyáéíóúýůě]*nu/.*" | ...
    • Tento příkaz najde „ženu/BN“ (společně s dalšími, např. „tnu/BN“, „žnu/BN“).
  2. cat cs_CZ.dic | grep "^[a-zščťž][aeiouyáéíóúýůě]+nu/.*" | ...
    • Tento příkaz „ženu/BN“ nenajde.

Rozdíl je mezi * (nula nebo více) a + (jedna nebo více). Ale protože „ženu/BN“ má jednu samohlásku e, měl by fungovat i regex s +. Proč tedy nefunguje?

Klíčový důvod: grep a základní regulární výrazy (BRE)

Problém spočívá v tom, že příkaz grep bez přepínače -E používá základní regulární výrazy (Basic Regular Expressions, BRE), nikoli rozšířené regulární výrazy (Extended Regular Expressions, ERE). V BRE má znak + jinou funkci:

  • V BRE není + kvantifikátor („jedna nebo více“), ale je považován za literál, tedy hledá skutečný znak + v textu.
  • V ERE (povolené pomocí grep -E) je + kvantifikátor, jak očekáváte.

Takže váš druhý regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* v grep bez -E hledá:

  • Začátek řetězce.
  • Jeden znak z [a-zščťž].
  • Jeden znak z [aeiouyáéíóúýůě].
  • Literál + (který v „ženu/BN“ není).
  • Pak nu/ a cokoli dalšího.

Protože v „ženu/BN“ není znak + mezi e a nu/, regex neodpovídá a nic nenajde.

Naopak první regex s * funguje, protože v BRE je * kvantifikátor („nula nebo více“) a správně interpretuje [aeiouyáéíóúýůě]* jako nula nebo více samohlásek, což „ženu/BN“ splňuje.

Řešení pro grep

Aby váš druhý regex fungoval podle očekávání (hledal alespoň jednu samohlásku), musíte použít grep -E, který povolí rozšířené regulární výrazy. Upravte příkaz takto:

cat cs_CZ.dic | grep -E "^[a-zščťž][aeiouyáéíóúýůě]+nu/.*" | grep -vE "/HRIN|/FI|/PI|/[HRPQEFLW]+$" | grep -vE "^(pro|na|do|u|roze?|přede|př[ei]|po|za|vy|ode?|obe?|znovu|spolu)"

Tento příkaz správně rozpozná + jako „jedna nebo více samohlásek“ a najde „ženu/BN“, protože e je přítomna.

A co Python?

Ve vaší otázce zmiňujete „regex v Pythonu 3“. V Pythonu modul re používá rozšířené regulární výrazy implicitně, takže + je vždy kvantifikátor. Pokud tedy používáte tento kód:

import re

text = "ženu/BN"
pattern = r"^[a-zščťž][aeiouyáéíóúýůě]+nu/.*"
if re.match(pattern, text):
    print("Našlo to!")
else:
    print("Nenašlo to.")

Výstup bude „Našlo to!“, protože regex funguje správně a „ženu/BN“ odpovídá vzorci.

Pokud vám to v Pythonu nefunguje, mohl by být problém v:

  • Kódování: Ujistěte se, že váš soubor/skript je v UTF-8, aby české znaky (ž, ě) byly správně rozpoznány.
  • Textu: Ověřte, že testovaný řetězec je skutečně „ženu/BN“ bez skrytých znaků (např. mezery, konce řádků).

Ověření a doporučení

  1. Pro grep: Použijte grep -E, jak je uvedeno výše.
  2. Pro Python: Regex by měl fungovat, pokud je text správně formátovaný. Můžete vyzkoušet:
    import re
    with open("cs_CZ.dic", encoding="utf-8") as f:
        for line in f:
            if re.match(r"^[a-zščťž][aeiouyáéíóúýůě]+nu/.*", line.strip()):
                print(line.strip())
    
  3. Kontrola souboru: Zkontrolujte obsah cs_CZ.dic příkazem cat -A cs_CZ.dic, zda neobsahuje skryté znaky.

Závěr

Důvod, proč druhý regex ^[a-zščťž][aeiouyáéíóúýůě]+nu/.* neextrahuje „ženu/BN“ v příkazu grep, je ten, že bez -E je + považován za literál, nikoli kvantifikátor. Po odstranění + nebo nahrazení * to funguje, protože * je v BRE správně interpretováno. Použitím grep -E zajistíte, že + bude znamenat „jedna nebo více“, jak očekáváte.

Doufám, že toto vysvětlení vyřeší vaši záhadu! Pokud máte další otázky, neváhejte se ozvat.

čtvrtek 10. července 2025

Brainstorming: Jak zlepšit sledovanost videa? (doporučení YT/GPT)

Přelož: For hooks: 'Start with surprising facts' or 'begin with relatable problems and solutions'. For outlines: 'Incorporate humour', 'mention challenges' or 'include fan theories'. For titles: 'Make it concise', 'ask a question' or 'include numbers'. For thumbnails: 'Chocolate desserts' or 'low-top basketball shoes'.

.
GPT-4o mini

Zde je překlad:

Pro háčky: „Začněte překvapivými fakty“ nebo „začněte s problémy a řešeními, se kterými se lidé mohou ztotožnit“. Pro osnovy: „Zařaďte humor“, „zmíněte výzvy“ nebo „zahrňte fanouškovské teorie“. Pro názvy: „Udělejte je stručné“, „položte otázku“ nebo „zahrňte čísla“. Pro miniatury: „Čokoládové dezerty“ nebo „nízké basketbalové boty“.

Rozved

.
GPT-4o mini

Zde je podrobnější rozvedení jednotlivých bodů:

Pro háčky

  • Začněte překvapivými fakty: Použití nečekaných nebo fascinujících informací může okamžitě upoutat pozornost diváků. Například, pokud vytváříte obsah o zdravé výživě, můžete začít s překvapivým faktem o tom, kolik cukru se nachází v běžných potravinách.
  • Začněte s problémy a řešeními, se kterými se lidé mohou ztotožnit: Identifikace běžných problémů, které lidé zažívají, a nabídnutí řešení může vytvořit silné spojení s publikem. Například, pokud se zaměřujete na produktivitu, můžete začít s popisem frustrace z prokrastinace a poté představit techniky, jak ji překonat.

Pro osnovy

  • Zařaďte humor: Humor může učinit obsah přístupnějším a zábavnějším. Vtipy nebo vtipné příběhy mohou udržet diváky zaujaté a povzbudit je, aby se vrátili pro další obsah.
  • Zmíněte výzvy: Diskuze o výzvách, kterým čelíte, nebo které čelí vaši cíloví diváci, může posílit důvěru a autenticitu. Například, pokud se zabýváte osobním rozvojem, můžete sdílet své vlastní překážky a jak jste je překonali.
  • Zahrňte fanouškovské teorie: Pokud se váš obsah týká populární kultury, zahrnutí fanouškovských teorií může povzbudit interakci a diskusi. Například, pokud mluvíte o oblíbeném seriálu, můžete zmínit různé teorie fanoušků a vyzvat diváky, aby sdíleli své názory.

Pro názvy

  • Udělejte je stručné: Krátké a výstižné názvy jsou snáze zapamatovatelné a přitažlivé. Místo dlouhého popisu se zaměřte na klíčové slovo nebo frázi, která vystihuje podstatu obsahu.
  • Položte otázku: Otázky v názvech mohou vzbudit zvědavost a povzbudit diváky, aby klikli na váš obsah. Například: „Jak zlepšit svou produktivitu za 5 minut denně?“
  • Zahrňte čísla: Použití čísel v názvech může přitáhnout pozornost a naznačit strukturu obsahu. Například: „7 tipů, jak se stát lepším spisovatelem“.

Pro miniatury

  • Čokoládové dezerty: Miniatury s lákavými obrázky čokoládových dezertů mohou přitáhnout pozornost milovníků sladkostí a povzbudit je, aby si prohlédli váš recept nebo video.
  • Nízké basketbalové boty: Pokud se zaměřujete na sportovní obuv, miniatura s atraktivním designem nízkých basketbalových bot může oslovit sportovní nadšence a povzbudit je, aby se dozvěděli více o výhodách a vlastnostech těchto bot.

Toto rozvedení poskytuje hlubší pohled na každou kategorii a ukazuje, jak mohou jednotlivé prvky přispět k úspěchu obsahu.

Python: Přístup Aho–Corasick & Memory‑map (mmap) + bufferované čtení bez .split() a .strip()

  Dobře, pojďme se kouknout na dvě pokročilé techniky, které (pravděpodobně) ještě nemáš nasazené, a které ti během tisíců až milionů řádků...

Štítky

.profile adm administrace Adobe Aho-Corasick AI akcelerace alfa transparence analýza AND any aplikace apt ar archiv asociativní pole atomicity audio autentifikace awk balíčkovací systém bash beacon beacon_hint benchmark Bézierovy křivky bezpečnost biblehub BJT blogger boolean brainstorming BRE buffer buffering bufferované čtení Cache-Conrol Cloudflare code Collector Cut-off ColorManager colorpicker common compare config cookies CPU CPU pipe css CSS3 curl current code cut čas data loss data lost data transfer reliability datasheet datetime.strptime deb deb-systemd-helper debian debián depricated development dict dioda diody dpkg dpkg -S dpkg-deb drivers EBO Emitter Cut-off Current eps ETag exclude exec Expires extrakce jediného extrakce názvu balíčku souboru extrakce obrázků extrakce souboru .deb fflock fflush ffmpeg FIFO file read file write file_get_contents file_get_contents/file_put_contents file_put_contents filter find first_install.sh flock Fly-back dioda font-face fóra fotorezistor fread functions funkce fwrite gate gate drive GDVfs gedit gedit-common geolokace getdata Ghostscript GIO glib gnome gnome settings GNU Privacy Guard gnupg gpg gradient-background grafika grep grep -v groupadd grub grub update gs gsettings gtk gtk.css gtk+ hebrejština history hlavičky HS html html 5 https hudba hunspell charakterizace chatGPT chroot chyba ICES IGBT Image img sizes img srcset impedance implementace imshow inference inkscape inrush current install jalový výkon javascript javescript jednocení seznamů js jsonData kapacita součástek koeficient zesílení komponenty xFce komunikace se serverem koncept konfigurace kontejner korekce barev Krita KSF kvantifikátor Last-Modified lazy caching led LEFT JOIN librosa ligatury light-locker lightdm linux list log maják manuál maskování maskování služby masky matplotlib Max-Age measure memory měření MFCC MFCC koeficienty mint Mint 21.3 Mint xFce míry modules moralizace morphologie MOSFET mount moviepy mysql náběhový proud napěťová ochrana nastavení šablony návod nel Network Error Logging NLP normalizace šedi po resize not Notifications NTFS nth-child oblasti oblékání ochrana okruhy přátel OpenVINO IR formát oprava oprava balíčku optočlen org.gnome.desktop.screensaver org.gnome.nm-applet ořezové masky OSHB otázky otázky_jazyky otázky_moralismu_řešení ovladače panely parsování path pdf personifikace photorec php php 4 php 5 php 6 php 7 php 8 phpbb phpBB3 PipeWire pitch plus PN přechody pnp pole Policykit postscript práva profilování program prune průraz přeinstalování přepěťová ochrana přepolování příkazy připojení k síti připojení k wifi pseudokódd pstoedit PulseAudio PWM regulátory pydub python python3 pytorch ramdisk RBE RDSon read reaktance rectifier regex regulace vstupního napětí reinstall relyability remount replace restore reverzní geolokace RIGHT JOIN rm role rozvržení disků pro OS linux a data databází řešení samba scan scroll sdílení sdílení souborů Sec-Fetch-Dest Sec-Fetch-Mode Sec-Fetch-Site Sec-Fetch-User Secure Shell sed Set Cookie show-manual-login show-remote-login shunt schemas schémata schottka skript skupiny sledovanost sloupce slučování seznamů služby small song sort soubory soundfile spínané zdroje spínání splines split spojování správa diskových zařízení SQL ssh stabilizace napětí stahování stíny stream string strojové učení stropové učení supplicant svg syntax systemctl systemd-logind T5 tabulka tabulky Tangentové úsečky tar témata tepelná ztráta terminologie test text-shadow themes thermal runaway time timestamp tkinter tr transistor transition tranzistor tranzistory tuple tvorba otázek TVS ubuntu účiník udiskd udisks unconfined underrun unity-greeter update usermod uživatelé va charakteristika vala vektorová grafika Vgs video Vth výkon vynechání adresářů vývoj while wpa wpa_supplicant wrapovací funkce x xandr xapp-watt xargs -I xed xed-common xfdesktop xml XOR Xorg Xorg Thumbnails xrandr závislosti zdánlivý výkon zdroj zenerka zenerovo napětí zip zip archiv zkratky zpomalení zpracování textu zrychlení Žalmy