středa 11. června 2025

Shrnutí problému normalizace (GPT, ne deepthink)

PLÁN: Normalizace šedi v Image, po resize.

 


Rozumím, chyba byla v tom, že se nejprve dělala projekce (sloupcová/řádková) z už zmenšeného obrázku, aniž by se ta projekce odpovídajícím způsobem kompenzovala ztráta intenzit (nebo naopak ztráta stínu). Tím vznikne slabší (rozředěný) stín, protože každé zmenšení rozměru (např. šířky z 1000 px na 64 px) zároveň zprůměruje nebo zprůměruje hodnoty pixelů.


🧩 Co se má dělat správně

Předpoklady spuštění:

  1. získal jsem binární masku 2D obrazu pomocí bl_bw = binarize_shadow(bl_small) a tr_bw = binarize_shadow(tr_small)

  2. spouštím funkci     candidates, resolution_info = locate_region_and_source(
            bl_bw=bl_bw,
            bl_crop=bl_crop,
            tr_bw=tr_bw,
            tr_crop=tr_crop,
            thumbnail=thumbnail,
            full_img=img,  # originál v plném rozlišení
            bl_box_in_thumb=bl_box,
            tr_box_in_thumb=tr_box,
            crop_resize_bl_factor=bl_div,
            crop_resize_tr_factor=tr_div,
            small_capacity_bl=small_capacity_bl,  # např. 4
            small_capacity_tr=small_capacity_tr,
            est_shadow_thumb_px=est_shadow_thumb_px,   # odhad tloušťky stínu ve thumbnailu
            output_path = output_path
        )


  3. uvnitř funkce locate_region_and_source se spouští     shadow_ranges = project_and_find_shadow_ranges(
            bl_bw=bl_bw,
            tr_bw=tr_bw,
            min_shadow_thickness_px=MIN_SHADOW_PX_SMALL,
            min_shadow_length_px=20,
            intensity_thresh=0.5,
            output_path=output_path
        )

    která přijímá dvě binární masky 2D

  4. Náhled kodu kde bude probíhat editace: def project_and_find_shadow_ranges(
            bl_bw: Image.Image,
            tr_bw: Image.Image,
            min_shadow_thickness_px: int = MIN_SHADOW_PX_SMALL,
            min_shadow_length_px: int = 20,
            intensity_thresh: float = 0.5,
            output_path: str = ""
        ) -> dict:
            def find_longest_true_interval(bool_list: list[bool]) -> tuple[int, int, int]:
                best_len = 0
                best_start = None
                curr_start = None
                curr_len = 0
                for i, val in enumerate(bool_list):
                    if val:
                        if curr_start is None:
                            curr_start = i
                            curr_len = 1
                        else:
                            curr_len += 1
                    else:
                        if curr_start is not None and curr_len > best_len:
                            best_len = curr_len
                            best_start = curr_start
                        curr_start = None
                        curr_len = 0
                if curr_start is not None and curr_len > best_len:
                    best_len = curr_len
                    best_start = curr_start
                if best_start is None:
                    return (None, None, 0)
                return (best_start, best_start + best_len - 1, best_len)
                # END find_longest_true_interval(bool_list: list[bool])
            # POKRAČOVÁNÍ project_and_find_shadow_ranges
            """
            Pro každý z obrázků bl_bw a tr_bw vytvoří:
              - horizontální projekci (w × 1) a ukládá ji jako
                output_path.replace("thumbnail_", "{label}_row_")
              - vertikální projekci (1 × h) a ukládá ji jako
                output_path.replace("thumbnail_", "{label}_col_")
            Poté v každé projekci najde nejdelší souvislý True-interval
            a vrátí slovník:
              {
                "small_bl_row": (start, end, length),
                "small_bl_col": (start, end, length),
                "small_tr_row": (…),
                "small_tr_col": (…)
              }
            """
            results = {}
            threshold_255 = int(round(intensity_thresh * 255))

            # label je řetězec "small_bl" nebo "small_tr".
            # Vytvoření klíčů "small_bl_row", "small_bl_col", "small_tr_row" a "small_tr_col"
            for label, img_bw in (("small_bl", bl_bw), ("small_tr", tr_bw)):
                w, h = img_bw.size

                # @TODO: Zavést normalizaci barev po zmenšení, vycházeje asi z poměru zmenšení
                # horizontální projekce
                row_proj = img_bw.resize((w, 1), resample=Image.Resampling.BILINEAR)
                row_path = output_path.replace("thumbnail_", f"{label}_row_")
                row_proj.save(row_path)
                # @TODO: Provést normalizaci barev přepočet podle původní výšky

                # vertikální projekce
                col_proj = img_bw.resize((1, h), resample=Image.Resampling.BILINEAR)
                col_path = output_path.replace("thumbnail_", f"{label}_col_")
                col_proj.save(col_path)
                # @TODO: Provést normalizaci barev přepočet podle původní šířky

Správné pořadí kroků:

  1. Ve funkci project_and_find_shadow_ranges row_proj: img_bw.resize((w, 1), resample=Image.Resampling.BILINEAR) a col_proj = img_bw.resize((1, h), resample=Image.Resampling.BILINEAR)

  2. Proveď normalizaci šedi/intenzit podle původní výšky nebo šířky, protože aktuální velikost strany je 1, čímž došlo ke "zředění" intenzit stínů.

  3. Po provedení normalizace ulož to jako nové soubory:

                row_path = output_path.replace("thumbnail_", f"n_{label}_row")
    a

                col_path = output_path.replace("thumbnail_", f"n_{label}_col")
     


✳️ Proč je potřeba škálovat podle míry zmenšení?

Při projekci (např. img_bw.resize((w, 1)... nebo img_bw.resize((1, h),) se intenzita stínu sníží, protože se rozmaže do menšího počtu bodů. Např.:

  • Pokud zmenšíš obrázek 100×100 na 100×1, pak každý pixel nové projekce odpovídá asi ???? původním bodům → tím se intenzita zprůměruje → výsledek bude méně kontrastní.

  • Bez korekce škálováním dostaneš slabý stín, který je těžko detekovatelný a pokaždé jiný.


🧮 Řešení: korekce podle škálovacího faktoru

Spočítat kolikrát se po resize na 1, stíny "zředily" oproti původní velikosti zmenšené strany.

Následně provést opravu pomocí kontrastu - levels podobně jako jsem to dělal výše:

    bl_crop = thumbnail.crop(bl_box)
    enhancer = ImageEnhance.Brightness(bl_crop)
    bl_crop = enhancer.enhance(1.2)
    enhancer = ImageEnhance.Contrast(bl_crop)
    bl_crop = enhancer.enhance(2.0)
    enhancer = ImageEnhance.Brightness(bl_crop)
    bl_crop = enhancer.enhance(1.4)


Žádné komentáře:

Okomentovat

Test5 - Volání ve skriptu + popis volání a resize po implementaci simulace draw

process_images() └─ for each image: ├─ create_thumbnail_with_regions() │ ├─ binarize_shadow() → bl_bw, tr_bw │ ├─ locate...

Štítky

.profile adm administrace Adobe AI akcelerace alfa transparence analýza AND any aplikace apt ar archiv asociativní pole atomicity audio autentifikace awk balíčkovací systém bash beacon beacon_hint benchmark Bézierovy křivky bezpečnost biblehub BJT blogger boolean buffer buffering Cache-Conrol Cloudflare code Collector Cut-off ColorManager colorpicker common compare config cookies CPU CPU pipe css CSS3 curl current code cut čas data loss data lost data transfer reliability datasheet datetime.strptime deb deb-systemd-helper debian debián depricated development dioda diody dpkg dpkg -S dpkg-deb drivers EBO Emitter Cut-off Current eps ETag exclude exec Expires extrakce jediného extrakce názvu balíčku souboru extrakce obrázků extrakce souboru .deb fflock fflush ffmpeg FIFO file read file write file_get_contents file_get_contents/file_put_contents file_put_contents filter find first_install.sh flock Fly-back dioda font-face fóra fotorezistor fread functions funkce fwrite gate gate drive GDVfs gedit gedit-common geolokace getdata Ghostscript GIO glib gnome gnome settings GNU Privacy Guard gnupg gpg gradient-background grafika grep grep -v groupadd grub grub update gs gsettings gtk gtk.css gtk+ hebrejština history hlavičky HS html html 5 https hudba charakterizace chroot chyba ICES IGBT Image img sizes img srcset impedance implementace imshow inference inkscape inrush current install jalový výkon javascript javescript jednocení seznamů js kapacita součástek koeficient zesílení komponenty xFce komunikace se serverem koncept konfigurace kontejner korekce barev Krita KSF Last-Modified lazy caching led LEFT JOIN librosa ligatury light-locker lightdm linux list log maják manuál maskování maskování služby masky matplotlib Max-Age measure memory měření MFCC MFCC koeficienty mint Mint 21.3 Mint xFce míry modules moralizace morphologie MOSFET mount moviepy mysql náběhový proud napěťová ochrana nastavení šablony návod nel Network Error Logging NLP normalizace šedi po resize not Notifications NTFS nth-child oblasti oblékání ochrana okruhy přátel OpenVINO IR formát oprava oprava balíčku optočlen org.gnome.desktop.screensaver org.gnome.nm-applet ořezové masky OSHB otázky otázky_jazyky otázky_moralismu_řešení ovladače panely parsování path pdf personifikace photorec php php 4 php 5 php 6 php 7 php 8 phpbb phpBB3 PipeWire pitch PN přechody pnp pole Policykit postscript práva profilování program prune průraz přeinstalování přepěťová ochrana přepolování příkazy připojení k síti připojení k wifi pseudokódd pstoedit PulseAudio PWM regulátory pydub python python3 pytorch ramdisk RBE RDSon read reaktance rectifier regulace vstupního napětí reinstall relyability remount replace restore reverzní geolokace RIGHT JOIN rm role rozvržení disků pro OS linux a data databází řešení samba scan scroll sdílení sdílení souborů Sec-Fetch-Dest Sec-Fetch-Mode Sec-Fetch-Site Sec-Fetch-User Secure Shell sed Set Cookie show-manual-login show-remote-login shunt schemas schémata schottka skript skupiny sloupce služby small song sort soubory soundfile spínané zdroje spínání splines split správa diskových zařízení SQL ssh stabilizace napětí stahování stíny stream string strojové učení stropové učení supplicant svg syntax systemctl systemd-logind T5 tabulka tabulky Tangentové úsečky tar témata tepelná ztráta terminologie test text-shadow themes thermal runaway time timestamp tkinter tr transistor transition tranzistor tranzistory tuple tvorba otázek TVS ubuntu účiník udiskd udisks unconfined underrun unity-greeter update usermod uživatelé va charakteristika vala vektorová grafika Vgs video Vth vynechání adresářů vývoj while wpa wpa_supplicant wrapovací funkce x xandr xapp-watt xargs -I xed xed-common xfdesktop xml XOR Xorg Xorg Thumbnails xrandr závislosti zdánlivý výkon zdroj zenerka zenerovo napětí zip zip archiv zkratky zpomalení zpracování textu zrychlení Žalmy