pondělí 2. září 2024

python skript pro kontrolu souborů podle seznamu souborů

all_txt_files_list.txt:

all||slovíčka 1. cyklu.txt
|_|/media/filmy/Videa - Kytara/Lekce kytary/1) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|1) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/1) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK)
*|2|/media/filmy/Videa - Kytara/Lekce kytary/2) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|2) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/2) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK)
+|3|/media/filmy/Videa - Kytara/Lekce kytary/3) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|3) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/3) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK)
^|4|/media/filmy/Videa - Kytara/Lekce kytary/4) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|4) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/4) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK)
&|5|/media/filmy/Videa - Kytara/Lekce kytary/5) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|5) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/5) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK)
$|6a,6b|/media/filmy/Videa - Kytara/Lekce kytary/6) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|6) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/6) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK - ROMANZA)
%|7|/media/filmy/Videa - Kytara/Lekce kytary/7) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|7) VAZBY PODMĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Lekce kytary/srt-korektura/7) PŘIPRAVENO (KRÁTKÝ TEXT VÝŇATEK - LIGAR tocando)
@|8|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/1) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|1) VAZBY PODNĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/srt-korektura/1) PŘIPRAVENO (KRÁTKÝ TEXT - VÝŇATEK - 5 cosas que NO debes) .srt
#|9|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/2) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|2) VAZBY PODNĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/srt-korektura/2) PŘIPRAVENO (KRÁTKÝ TEXT - VÝŇATEK - 5 RASGUOS para TODO) .srt
*|0|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/3) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|3) VAZBY PODNĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/srt-korektura/3) PŘIPRAVENO (KRÁTKÝ TEXT - VÝŇATEK - 5 Técnicas PRO) .srt
°||/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/4) SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|4) VAZBY PODNĚTU PŘÍSUDKU S ADVERBEM.txt|/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/srt-korektura/4) PŘIPRAVENO (KRÁTKÝ TEXT - VÝŇATEK - CEJILLA - BARRÉ) .srt
||/media/filmy/Videa - Kytara/Tipy-Tutorialy ke kytaře/5) SLOVÍČKA NEZAHRNUTÁ DO VAZEB AI.txt||
!||/media/filmy/Videa - Kytara/Těžší vyučování bez praxe/SLOVÍČKA NEZAHRNUTÁ DO EXTRAHOVANÝCH VAZEB.txt|VAZBY PODNĚTU PŘÍSUDKU S ADVERBEM - La armonia en el Flamenco.txt|/media/filmy/Videa - Kytara/Těžší vyučování bez praxe/srt-korektura/PŘIPRAVENO (KRÁTKÝ TEXT - VÝŇATEK - HARMONIE FLAMENKA).txt

Skript:

import re
import os
import time

# Cíl adresářové struktury
target_directory = "/media/filmy/výuka-španělštiny"
log_file = "report.log"
specChars = "_!@#$%^&*°<>/0123456789" # Speciální znak, které se mohou objevit na začátku řádku se slovní zásobou

# Čtení souboru all_txt_files.list.txt
with open("all_txt_files.list.txt", "r") as file:
    lines = file.readlines()

def get_prefix(line):
    # Regulární výraz pro nalezení prefixu s písmenem
    match = re.match(r'^([_!@#$%^&*°<>/0123456789]*[\p{L}])', line, re.UNICODE)
    if match:
        prefix = match.group(0)
        # Zjistit, zda za písmenem následují dva nebo více nespeciálních znaků
        pos = len(prefix)
        if pos < len(line):
            # Kontrola, zda následují dva nebo více nespeciálních znaků nebo konec řádku
            following_text = line[pos:]
            if len(following_text) > 1 and not any(c in specChars for c in following_text[:2]):
                return prefix
            if pos == len(line) or (len(following_text) > 0 and following_text[0] not in specChars):
                return prefix
    return ''

def log_message(current_file, message="", content=""):
    """Zapisuje zprávu do logu a zároveň ji vypisuje na obrazovku."""
    with open(log_file, "a") as log:
        if not content:
            log.write(f"{current_file}: {message}\n")
        else:
            log.write(f"{current_file}: {message}, content: \n{content}\n")
    if not current_file:
        print(f"{message}\n")
    else:
        print(f"{current_file}: {message}\n")

# Vrací tři proměnné z prvního řádku
def get_first_line(lines):
    first_line = lines[0].strip().split('|')
    if len(first_line) >= 3:
        var1 = first_line[0].strip()  # První hodnota
        var2 = first_line[1].strip()  # Druhá hodnota
        var3 = first_line[2].strip()  # Třetí hodnota
        return var1, var2, var3
    else:
        print("Chyba: První řádek nemá očekávaný formát.")
        exit(1)

def process_files_from_arrays(vazby_excluded_path_list, vazby_path_list, original_shorted_path_list):
    i = 0
    for path in vazby_excluded_path_list:
        process_file_content(path)
        if not vazby_path_list[i]:
            print(f"No file vazby_path='' when processing file {path}")
        else:
            process_file_content(vazby_path_list[i])

        if not original_shorted_path_list[i]:
            print(f"No file original_shorted_path='' when processing file {path}")
        else:
            process_file_content(original_shorted_path_list[i])
    i += 1

# Funkce pro ověření a přípravu polí
def verify_and_prepare_arrays(lines):
    prefix_compared_prev = []
    prefix_compared_cycle_1 = []
    vazby_path_list = []
    vazby_excluded_path_list = []
    original_shorted_path_list = []

    base_path = "/media/filmy/Videa - Kytara&Suno/"

    for index, line in enumerate(lines):
        columns = line.strip().split('|')
        print(f"LINE: {line}")
        # Zkontrolovat, zda je správný počet sloupců (mělo by být 5 sloupců)
        if len(columns) != 5:
            print(f"Chyba: nesprávný počet sloupců na řádku {index + 1}")
            exit(1)

        # Uložit hodnoty prvního sloupce do pole, pokud existují
        if columns[0]:
            prefix_compared_prev.append(columns[0].strip())

        # Uložit hodnoty druhého sloupce do pole, pokud existují
        if columns[1]:
            prefix_compared_cycle_1.append(columns[1].strip())

        # Ověřit existenci souboru ve třetím sloupci a uložit do pole
        vazby_excluded_path = columns[2].strip()
        expected_dir = os.path.dirname(vazby_excluded_path)
        if not os.path.isfile(vazby_excluded_path):
            print(f"Chyba: soubor neexistuje (třetí sloupec) {vazby_excluded_path} na řádku {index + 1}")
            exit(1)
        vazby_excluded_path_list.append(vazby_excluded_path)

        # Ověřit existenci souboru ve čtvrtém sloupci a uložit do pole
        vazby_path = columns[3].strip()
        if vazby_path:
            dir_name = os.path.dirname(vazby_path)
            # if dir_name is empty add base path
            if not dir_name: # from 3rd column  
                vazby_path = os.path.join(expected_dir, vazby_path)
                if not os.path.isfile(vazby_path):
                    print(f"Chyba: soubor neexistuje (čtvrtý sloupec)  dir_name: {dir_name}, {vazby_path} na řádku {index + 1}")
                    exit(1)
        vazby_path_list.append(vazby_path)

        # Pokud cesta existuje, ověřit existenci souboru v pátém sloupci a uložit do pole
        original_shorted_text_path = columns[4].strip()
        if original_shorted_text_path:
            if not os.path.isfile(original_shorted_text_path):
                print(f"Chyba: soubor neexistuje (pátý sloupec) {original_shorted_text_path} na řádku {index + 1}")
                exit(1)
        original_shorted_path_list.append(original_shorted_text_path)

    return (prefix_compared_prev, prefix_compared_cycle_1, vazby_path_list,
            vazby_excluded_path_list, original_shorted_path_list)

def process_file_content(file_path):
    # 14. Zpracovat soubor, filtrovat řádky, které obsahují dva velké znaky
    with open(file_path, "r") as f:
        content = f.readlines()
    is_line_comment = False
    is_vocabulary_header = False
    is_line_vocabulary = False
    starts_with_specChar = False
    prefix = False
    for line in content:
        # Identifikovat komentáře ve stylu KOMENTÁŘ
        if not (any(c.isupper() for c in line[:2]) and line[:2].isupper()):
          is_line_comment = True
        else:
          is_line_comment = False

        # 15. Zjistit, zda řádek obsahuje pipeline "|"
        if "|" in line:
            is_line_vocabulary = True
            first_word = line.split("|")[0].strip()
        else
            is_line_vocabulary = False
            first_word = ""

    # 16. Zjistit, zda řádek obsahuje závorky, pokud ano, zkrátit řádek
    stripped_line = line
    if not is_line_comment:
        if line:
           if line[0] in specChars:
              prefix ...

        if line.strip().endswith(":"):
            is_vocabulary_header = True
        else
            is_vocabulary_header = False

        if "(" in line:
            stripped_line = line.split("(")[0].strip()

    # 17. Zjistit, zda řádek obsahuje blok "///"
    block_is_found = False
    block_message = []  # Sběr textu bloku
    for line in filtered_content:
        if "///" in line:
            log_message(file_path, "Nový blok nalezen")
            block_message.append(line)
            block_is_found = True
            continue
        
        if block_is_found and any(c.isupper() for c in line[:2]) and line[:2].isupper():
            continue
        
        if block_is_found and not line.strip():
            log_message("", "Konec bloku nalezen", ''.join(block_message))
            block_is_found = False

    # 18. Zjistit a zpracovat text "NEZAHRNUT"
    if "NEZAHRNUT" in file_path:
        explanation_block = []
        in_explanation = False
        for line in filtered_content:
            if "Vysvětlení:" in line:
                in_explanation = True
            
            if in_explanation:
                explanation_block.append(line)
                if "opakuj" in line:
                    log_message(file_path, "Nalezen blok vysvětlení")
                elif not line.strip():  # Konec bloku vysvětlení
                    log_message(file_path, "Konec bloku vysvětlení", ''.join(explanation_block))
                    explanation_block = []
                    in_explanation = False

# Získání proměnných z prvního řádku
flag_cycle, var2, words_cycle_1_path = get_first_line(lines)
if not os.path.isfile(words_cycle_1_path):
    print(f"Chyba: soubor neexistuje {words_cycle_1_path}")
    exit(1)

# Odstraní první řádek poté co jsem ho zpracoval
lines = lines[1:]

# Příprava polí pomocí nové funkce
(prefix_compared_prev, prefix_compared_cycle_1, vazby_path_list,
 vazby_excluded_path_list, original_shorted_path_list) = verify_and_prepare_arrays(lines)
process_files_from_arrays(vazby_excluded_path_list, vazby_path_list, original_shorted_path_list)

# Ukončení zpracování
print("Všechny soubory byly zpracovány.")

Žádné komentáře:

Okomentovat

GPT: Ramdisk a extrakce .deb

  Následující skript provádí popsané kroky, využívá RAMdisky různých velikostí podle potřeby a provádí extrakci. Tento skript je psán v Bas...

Štítky

.profile adm administrace Adobe AI akcelerace alfa transparence AND any aplikace apt ar archiv asociativní pole atomicity audio autentifikace awk balíčkovací systém bash beacon beacon_hint benchmark Bézierovy křivky bezpečnost biblehub BJT boolean buffer buffering Cache-Conrol Cloudflare code Collector Cut-off ColorManager colorpicker common compare config cookies CPU CPU pipe css CSS3 curl cut čas data loss data lost data transfer reliability datasheet datetime.strptime deb deb-systemd-helper debian debián development dioda diody dpkg dpkg -S dpkg-deb drivers EBO Emitter Cut-off Current eps ETag exclude exec Expires extrakce jediného extrakce názvu balíčku souboru extrakce souboru .deb fflock fflush ffmpeg FIFO file read file write file_get_contents file_get_contents/file_put_contents file_put_contents filter find first_install.sh flock Fly-back dioda font-face fóra fotorezistor fread functions funkce fwrite gate gate drive GDVfs gedit gedit-common geolokace Ghostscript GIO glib gnome gnome settings GNU Privacy Guard gnupg gpg gradient-background grafika grep grep -v groupadd grub grub update gs gsettings gtk gtk.css gtk+ hebrejština history hlavičky HS html html 5 https hudba charakterizace chroot chyba ICES IGBT img sizes img srcset impedance implementace imshow inference inkscape inrush current install jalový výkon javascript javescript jednocení seznamů js kapacita součástek koeficient zesílení komponenty xFce komunikace se serverem konfigurace Krita KSF Last-Modified lazy caching led LEFT JOIN librosa ligatury light-locker lightdm linux list log maják manuál maskování maskování služby masky matplotlib Max-Age measure memory měření MFCC MFCC koeficienty mint Mint 21.3 Mint xFce míry modules moralizace morphologie MOSFET mount moviepy mysql náběhový proud napěťová ochrana návod nel Network Error Logging NLP not Notifications NTFS nth-child oblékání ochrana okruhy přátel OpenVINO IR formát oprava oprava balíčku optočlen org.gnome.desktop.screensaver org.gnome.nm-applet ořezové masky OSHB otázky otázky_jazyky otázky_moralismu_řešení ovladače panely parsování path personifikace photorec php php 4 php 5 php 6 php 7 php 8 phpbb phpBB3 PipeWire pitch PN přechody pnp pole Policykit postscript práva profilování program prune průraz přeinstalování přepěťová ochrana přepolování příkazy připojení k síti připojení k wifi pseudokódd pstoedit PulseAudio PWM regulátory pydub python python3 pytorch ramdisk RBE RDSon read reaktance rectifier regulace vstupního napětí reinstall relyability remount replace restore reverzní geolokace RIGHT JOIN rm role rozvržení disků pro OS linux a data databází řešení samba sdílení sdílení souborů Sec-Fetch-Dest Sec-Fetch-Mode Sec-Fetch-Site Sec-Fetch-User Secure Shell sed Set Cookie show-manual-login show-remote-login shunt schemas schémata schottka skript skupiny sloupce služby song sort soubory soundfile spínané zdroje spínání splines split správa diskových zařízení SQL ssh stabilizace napětí stahování stream string strojové učení stropové učení supplicant svg syntax systemctl systemd-logind T5 tabulky Tangentové úsečky tar témata tepelná ztráta test text-shadow themes thermal runaway time timestamp tkinter tr transistor transition tranzistor tranzistory tuple tvorba otázek TVS ubuntu účiník udiskd udisks unconfined underrun unity-greeter update usermod uživatelé va charakteristika vala vektorová grafika Vgs video Vth vynechání adresářů vývoj while wpa wpa_supplicant wrapovací funkce x xandr xapp-watt xargs -I xed xed-common xfdesktop xml XOR Xorg Xorg Thumbnails xrandr závislosti zdánlivý výkon zdroj zenerka zenerovo napětí zip zip archiv zkratky zpomalení zpracování textu Žalmy