čtvrtek 17. července 2025

Python: dají se regexy urychlit přeskočením pro zpracování mnoha řádků ve slovníku?

Zkoušel jsem test.

Původní řešení pro exclude regex prostě používalo regex na každý řádek slovníku, který splňoval dané podmínky. Čas zpracování smyčky byl cca 470ms. Byl to obyčejná exclude_str v podstatě řetězec s alternativama.

$ ./affdic-processor.py
Trvání: 48.915 ms
dump aff smyčka zápis ve smyčce - Trvání: 48.293 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 48.637 ms
smyčka s exclude Trvání: 470.289 ms
Load .dic entries: Trvání: 513.712 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (65387 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (874 items)
Load aff rules - zápis max. dvou souborů: Trvání: 6238.581 ms
(.venv) user@Toshi:~/Skripty/Python.čeština/czech-dictionaries$

NEEFEKTIVNÍ ŘEŠENÍ, EFEKTIVITA SE ZTRÁCÍ NA DVOU ZANOŘENÝCH SMYČKÁCH for

Zkoušel jsem to nahradit za dva seznamy nebo pole a seznam, a dát tomu sofistikovanější logiku, ale smyčka s exclude ted trvá 871 ms...

~/Skripty/Python.čeština/czech-dictionaries$ ./affdic-processor.py
Trvání: 61.627 ms
dump aff smyčka zápis ve smyčce - Trvání: 52.694 ms
Wrote ./lang/cs_CZ/input/SFX-J.aff (379 rules)
Load aff rules: Trvání: 67.405 ms
smyčka s exclude Trvání: 871.273 ms
Load .dic entries: Trvání: 915.141 ms
Wrote ./lang/cs_CZ/input/SFX-J.txt (45952 items)
Wrote ./lang/cs_CZ/input/SFX-J.r.txt (425 items)
Load aff rules - zápis max. dvou souborů: Trvání: 4408.855 ms

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        """
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        """
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_superfast:
                    break_prim = False
                    for
p in exclude_prefixes["keys"]:
                        if p == line[0]:
                            if len(line)>1:
                                for sec in exclude_prefixes[line[0]]:
                                    if sec[1] == line[1]:
                                        if len(sec)>2 and line.startswith(sec):
                                            if compiled_exclude_regex[p].match(line):
                                                break_prim = True
                                                break
                                        else:
                                            break_prim = True
                                            break
                                    else:
                                        break_prim = True
                                        break
                            else:
                                break_prim = True
                                break
                        # u jiných počátečních písmen spustit obecný regex přímo
                        elif compiled_exclude_regex[
'.'].match(line):
                            break_prim = True
                            break
                        if break_prim == True:
                            break
                if break_prim == True:
                    continue

                                            
                                            



                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries


HLAVNÍ ČÁST KODU:

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru

    # PŮVODNÍ ŘETĚZEC:
    # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
    # ZKUSÍM TO VYLEPŠIT:
    
    # exclude_prefixes -NESMÍ OBSAHOVAT REGEXY
    exclude_prefixes = {
        'keys': ['p', 'o', 'z'],
        'p': ["po", "př"], # "pro"- neotestováno
        'o': ["od", "ob"],
        'z': ["za", "znovu"]
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["na|do|u|roze?|vy|spolu"]
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(fr"^(?:{group})")

    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex
         )

KOD KTERÝ BYL RYCHLEJŠÍ (starý dvoujádrový notebook celeron z roku 2009)


    def extract_dic_entries(self, flag: str,
        exclude_str: str = "",
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        if exclude_str:
            if exclude_superfast:
                gen = (part[0] for part in exclude_str.split("|") if part)
                exclude_first_letters = list(dict.fromkeys(gen))
            exclude = re.compile(rf"^(?:{exclude_str})")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_str:
                    if exclude_superfast:
                        # superfast: nejprve zkontrolovat první písmeno,
                        # až pak volat regex jen pro podezřelé řádky
                        if line[0] in exclude_first_letters and exclude.match(line):
                            continue
                    else:
                        # bez superfast: grep‑like filtrování pro všechny řádky
                        if exclude.match(line):
                            continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries


# === Příklad použití ===
if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu" )

Je statický přístup rychlejší? Ne: 639ms.

    def extract_dic_entries(self, flag: str,
        exclude_prefixes: dict = None,
        compiled_exclude_regex: dict = None,
        exclude_superfast: bool=True,
        reverse: dict = None
        ) -> list:
        reverse = reverse or {"input": False, "output": False}

        """
        Vyhledá v .dic všechny tvary s daným flagem.
        Regex vybírá část před slash '/' a kontroluje, zda mezi hranatými
        závorkami je zadaný flag (např. IN pro I a N).
        Pro eliminaci předpon, lze doplnit grep-like filtr: např. odmítat
        řádky začínající na pro|na|do|..."""
        dic_path = os.path.join(self.aff_dic_dir, f"{self.lang.value}.dic")
        entries = []
        # pattern = re.compile(rf"^(\S+)/.*?\[{flag}\]")
        start = time.perf_counter()
        with open(dic_path, encoding='utf-8') as f:
            next(f)  # skip header count
            for line in f:

                if exclude_superfast:
                    # superfast: nejprve zkontrolovat první písmeno,
                    # až pak volat regex jen pro podezřelé řádky
                    """
                    if line[0] in exclude_first_letters and exclude.match(line):
                        continue
                    """
                    if line[0] == exclude_prefixes['keys_3'][0]:
                        if compiled_exclude_regex['p'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][1]:
                        if compiled_exclude_regex['o'].match(line):
                          continue
                    elif line[0] == exclude_prefixes['keys_3'][2]:
                        if compiled_exclude_regex['z'].match(line):
                          continue
                    elif line[0] in exclude_prefixes['rest_keys'].find():
                        if compiled_exclude_regex['.'].match(line):
                          continue
                else:
                    # bez superfast: grep‑like filtrování pro všechny řádky
                    if exclude.match(line):
                        continue

                # rozdělíme na část před '/' a za '/':
                # např. "být/IN" -> base="být", rest="IN"

                # Pokud uživatel nezadal flag, pak zapisovat jen slovíčka bez vlajek
                parts = line.split('/', 1)
                if not flag and len(parts)==1:
                    entries.append(line)
                    continue
                elif len(parts) != 2:
                    continue
                base, rest = parts
                # rest může obsahovat příznaky a další text, např. "IN", "PIN", "HRIN"
                if flag in rest:
                    entries.append(base)
        for _ in range(1000000):
            pass
        end = time.perf_counter(); elapsed_ms = (end - start) * 1000; print(f"smyčka s exclude Trvání: {elapsed_ms:.3f} ms")

        return entries

if __name__ == '__main__':
    reverse={
            "input": False,
            "output": False
            }
    # exclude_prefixes - obsahuje první znaky u třech předloh a zbýv.
    exclude_prefixes = {
        'keys_3': ['p', 'o', 'z'],
        'rest_keys': "dnrvs"
    }
    exclude_regex_map = {
        'p': ["po|přede?|př[ei]"],
        'o': ["ode?|obe?"],
        'z': ["za|znovu"],
        '.': ["do|na|roze?|vy|spolu"] # "u" nelze zařadit, je ve slově "usnout"a "snout" nemá význam
    }
    compiled_exclude_regex = {}
    for first, patterns in exclude_regex_map.items():
        group = "|".join(patterns)
        # ^ → match na začátku řádky
        compiled_exclude_regex[first] = re.compile(rf"^(?:{group})")


    # Ukázkové volání: vytvoříme procesor, načteme .aff/Shapka a zpracujeme text
    proc = AffDicProcessor(Lang.CZ)
    # 1) Vygeneruješ zkrácený .aff se všemi pravidly SFX‑J
    proc.dump_aff_rules(RuleType.SFX, 'J', reverse=reverse)

   # 2) Na základě těch samých pravidel plus .dic entries vypíšeš tvary:
    #    normalně i v obráceném pořadí, s použitím stejného exclude filtru
    proc.dump_dic_forms( RuleType.SFX, 'J',
        reverse=reverse,
        # exclude_str="pro|na|do|u|roze?|přede?|př[ei]|po|za|vy|ode?|obe?|znovu|spolu"
        exclude_prefixes=exclude_prefixes,
        compiled_exclude_regex=compiled_exclude_regex )

Je statický přístup s str.find(line[0]) rychlejší? Ne: 848ms.

To samé co výše jen s exclude_prefixes['rest_keys'].find(line[0])


Žádné komentáře:

Okomentovat

Python: Přístup Aho–Corasick & Memory‑map (mmap) + bufferované čtení bez .split() a .strip()

  Dobře, pojďme se kouknout na dvě pokročilé techniky, které (pravděpodobně) ještě nemáš nasazené, a které ti během tisíců až milionů řádků...

Štítky

.profile adm administrace Adobe Aho-Corasick AI akcelerace alfa transparence analýza AND any aplikace apt ar archiv asociativní pole atomicity audio autentifikace awk balíčkovací systém bash beacon beacon_hint benchmark Bézierovy křivky bezpečnost biblehub BJT blogger boolean brainstorming BRE buffer buffering bufferované čtení Cache-Conrol Cloudflare code Collector Cut-off ColorManager colorpicker common compare config cookies CPU CPU pipe css CSS3 curl current code cut čas data loss data lost data transfer reliability datasheet datetime.strptime deb deb-systemd-helper debian debián depricated development dict dioda diody dpkg dpkg -S dpkg-deb drivers EBO Emitter Cut-off Current eps ETag exclude exec Expires extrakce jediného extrakce názvu balíčku souboru extrakce obrázků extrakce souboru .deb fflock fflush ffmpeg FIFO file read file write file_get_contents file_get_contents/file_put_contents file_put_contents filter find first_install.sh flock Fly-back dioda font-face fóra fotorezistor fread functions funkce fwrite gate gate drive GDVfs gedit gedit-common geolokace getdata Ghostscript GIO glib gnome gnome settings GNU Privacy Guard gnupg gpg gradient-background grafika grep grep -v groupadd grub grub update gs gsettings gtk gtk.css gtk+ hebrejština history hlavičky HS html html 5 https hudba hunspell charakterizace chatGPT chroot chyba ICES IGBT Image img sizes img srcset impedance implementace imshow inference inkscape inrush current install jalový výkon javascript javescript jednocení seznamů js jsonData kapacita součástek koeficient zesílení komponenty xFce komunikace se serverem koncept konfigurace kontejner korekce barev Krita KSF kvantifikátor Last-Modified lazy caching led LEFT JOIN librosa ligatury light-locker lightdm linux list log maják manuál maskování maskování služby masky matplotlib Max-Age measure memory měření MFCC MFCC koeficienty mint Mint 21.3 Mint xFce míry modules moralizace morphologie MOSFET mount moviepy mysql náběhový proud napěťová ochrana nastavení šablony návod nel Network Error Logging NLP normalizace šedi po resize not Notifications NTFS nth-child oblasti oblékání ochrana okruhy přátel OpenVINO IR formát oprava oprava balíčku optočlen org.gnome.desktop.screensaver org.gnome.nm-applet ořezové masky OSHB otázky otázky_jazyky otázky_moralismu_řešení ovladače panely parsování path pdf personifikace photorec php php 4 php 5 php 6 php 7 php 8 phpbb phpBB3 PipeWire pitch plus PN přechody pnp pole Policykit postscript práva profilování program prune průraz přeinstalování přepěťová ochrana přepolování příkazy připojení k síti připojení k wifi pseudokódd pstoedit PulseAudio PWM regulátory pydub python python3 pytorch ramdisk RBE RDSon read reaktance rectifier regex regulace vstupního napětí reinstall relyability remount replace restore reverzní geolokace RIGHT JOIN rm role rozvržení disků pro OS linux a data databází řešení samba scan scroll sdílení sdílení souborů Sec-Fetch-Dest Sec-Fetch-Mode Sec-Fetch-Site Sec-Fetch-User Secure Shell sed Set Cookie show-manual-login show-remote-login shunt schemas schémata schottka skript skupiny sledovanost sloupce slučování seznamů služby small song sort soubory soundfile spínané zdroje spínání splines split spojování správa diskových zařízení SQL ssh stabilizace napětí stahování stíny stream string strojové učení stropové učení supplicant svg syntax systemctl systemd-logind T5 tabulka tabulky Tangentové úsečky tar témata tepelná ztráta terminologie test text-shadow themes thermal runaway time timestamp tkinter tr transistor transition tranzistor tranzistory tuple tvorba otázek TVS ubuntu účiník udiskd udisks unconfined underrun unity-greeter update usermod uživatelé va charakteristika vala vektorová grafika Vgs video Vth výkon vynechání adresářů vývoj while wpa wpa_supplicant wrapovací funkce x xandr xapp-watt xargs -I xed xed-common xfdesktop xml XOR Xorg Xorg Thumbnails xrandr závislosti zdánlivý výkon zdroj zenerka zenerovo napětí zip zip archiv zkratky zpomalení zpracování textu zrychlení Žalmy