A digitális archivátor: Így írj Bash skriptet, ami weboldalakat ment le egyetlen paranccsal!

Képzeljük el, hogy rábukkanunk egy fantasztikus cikkre, egy ritka receptre, egy inspiráló képre, vagy egy történelmi eseményről szóló oldalra az interneten. Megnyitjuk, elolvassuk, aztán talán bookmarkoljuk. Aztán egy nap, hónapok vagy évek múlva vissza akarunk térni rá, de… hoppá! 😱 Az oldal eltűnt. A domain elavult, a szerver leállt, vagy a tartalom egyszerűen törlésre került. Frusztráló, ugye? Az internet egy hatalmas, dinamikus entitás, ami folyamatosan változik, és ami ma él, az holnapra már csak egy 404-es hibaüzenet lehet. De mi van, ha azt mondom, van egy módja, hogy digitális időutazóvá válj, és megmenthessed a fontos vagy nosztalgikus weboldalakat az enyészettől?

Üdvözöljük a digitális archiválás csodálatos világában! Ebben a cikkben megmutatom, hogyan válhatsz egy parányi paranccsal a saját, személyes internetszéfed gondnokává. Nem kell hatalmas, drága szoftverekre gondolni, mindössze egy kis Bash szkriptelésre lesz szükségünk, és egy hihetetlenül hasznos parancssori eszközre: a wget-re. Készen állsz a kalandra? Vágjunk is bele! 💻

Miért fontos a weboldalak archiválása? 🤔

Mielőtt fejest ugrunk a kódolásba, beszéljünk egy kicsit arról, miért is érdemes ezzel foglalkozni. Miért töltenénk le egy egész weboldalt, ha bármikor megnézhetjük online? Nos, a válasz sokrétű:

Az adatok múlékonysága: Ahogy fentebb említettem, az internet sosem alszik, és tartalmak ezrei tűnnek el naponta. Egy oldal megszűnhet, egy cikk eltávolítható, egy termék leírása átíródhat. Ha egyszer letöltötted, az offline hozzáférés garantált! 💾
Kutatás és referenciák: Diákoknak, kutatóknak, újságíróknak elengedhetetlen, hogy hozzáférjenek a hivatkozott forrásokhoz. Egy archivált verzió biztosítja, hogy az információ ne változzon, és bármikor ellenőrizhető legyen.
Személyes gyűjtemény: Találtál egy különleges receptgyűjteményt? Egy régi képregény-archívumot? Vagy csak egy blogot, amit imádsz, és félsz, hogy eltűnik? Mentsd el magadnak! Én például imádom a retro tech oldalakat gyűjteni, és sokszor csak így tudom megőrizni őket az utókor számára.
Sávszélesség és sebesség: Ha egyszer letöltötted, nem kell többé a net sebességétől függned. Bárhol, bármikor hozzáférhetsz, internetkapcsolat nélkül is. Ez különösen hasznos, ha utazol, vagy rossz a hálózati lefedettség.
Történelmi és jogi okok: Bizonyos esetekben jogi vagy történelmi okokból kifolyólag muszáj megőrizni bizonyos webes tartalmakat. Gondoljunk csak a hivatalos bejelentésekre, cégtörténetekre.

A Mágikus Eszköz: `wget` 🪄

A Bash szkriptünk szívét és lelkét a wget nevű parancssori eszköz adja. Ha Linux vagy macOS felhasználó vagy, nagy valószínűséggel már telepítve van a rendszereden. Ha Windows-t használsz, akkor sincs gond, telepítheted például a Git Bash vagy a WSL (Windows Subsystem for Linux) segítségével. A wget egy rendkívül sokoldalú és stabil HTTP/HTTPS/FTP letöltő, ami rengeteg beállítási lehetőséget kínál. Véleményem szerint a wget a svájci bicskája a netes adatgyűjtésnek! 🧰

A `wget` alapjai: Egy gyors bevezetés

Mielőtt egy komplex szkriptet építenénk, nézzünk meg néhány alapvető wget parancsot:


# Egyetlen fájl letöltése (pl. egy kép)
wget https://example.com/kep.jpg

# Egy weboldal HTML tartalmának letöltése
wget https://example.com/index.html

Ez szép és jó, de mi van, ha az egész oldalt akarjuk, CSS-sel, JavaScripttel, képekkel együtt? Na, itt kezdődik az igazi móka! 🚀


# Az oldal teljes letöltése: Rekurzív, konvertálás, külső hivatkozások kezelése
wget 
--recursive 
--no-clobber 
--page-requisites 
--html-extension 
--convert-links 
--restrict-file-names=windows 
--domains example.com 
--no-parent 
https://example.com/

Huh, ez már egy elég hosszú parancs! Ne aggódj, minden kapcsolót elmagyarázok:

--recursive vagy -r: Ez az, ami az egész oldalt végigjárja és letölti az aloldalakat. Kulcsfontosságú!
--no-clobber vagy -nc: Ha már létezik egy fájl az adott néven, nem írja felül. Ez hasznos, ha később frissíteni szeretnénk az archívumot.
--page-requisites vagy -p: Letölti az oldal megjelenéséhez szükséges összes fájlt (képek, CSS, JS stb.). Nélkülözhetetlen a helyes megjelenítéshez.
--html-extension vagy -E: Hozzáadja a .html kiterjesztést a HTML fájlokhoz, ha az eredeti URL-nek nincs. Sokkal olvashatóbbá teszi az archívumot.
--convert-links vagy -k: Ez egy zseniális funkció! A letöltött HTML fájlokban lévő belső linkeket átírja úgy, hogy a helyi fájlokra mutassanak. Így a letöltött oldal úgy működik, mintha a neten lennél, csak éppen offline!
--restrict-file-names=windows: Ez biztosítja, hogy a letöltött fájlnevek kompatibilisek legyenek a Windows fájlrendszerével is (kerüli a problémás karaktereket). Okos kis dolog! 😉
--domains example.com: Ez nagyon fontos! Csak azokat a linkeket követi, amelyek a megadott domainhez tartoznak. Így elkerüljük, hogy az egész internetet letöltsük, mert az adott oldalon van egy külső link pl. a Facebookra.
--no-parent: Nem követi azokat a linkeket, amelyek az URL-hierarchiában feljebb mutatnak. Ez megakadályozza, hogy véletlenül az oldal gyökeréig visszaugorjon, ha egy aloldalt próbálsz letölteni.

Hogyan listázzunk fájlokat és könyvtárakat a parancssor segítségével? dir /s /p használata

A Digitális Archivátor Szkriptje: Egyetlen Parancs! 🤖

Most, hogy megértettük a wget erejét, ideje becsomagolni ezt egy elegáns Bash szkriptbe. A célunk az, hogy ezt a hosszú parancsot egyetlen egyszerű paranccsá alakítsuk, amit csak a letölteni kívánt URL-lel kell futtatni. Íme a mi digitális archivátorunk!


#!/bin/bash

# A digitális archivátor szkript
# Szerző: Te magad! :)
# Dátum: 2023-10-27
# Leírás: Letölt egy teljes weboldalt offline hozzáférés céljából,
#         figyelembe véve a legjobb gyakorlatokat.

# --- Változók és konfiguráció ---
USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"
# Ez a User-Agent segít elkerülni, hogy egyes oldalak blokkoljanak minket,
# mert azt hiszik, robot vagyunk. Nagyon sok weboldal ellenőrzi ezt!
# (Bár a wget felismerhető marad, ez egy lépés a "normális" böngésző imitálása felé.)

DELAY=1 # Másodpercenként ennyi várakozás a lekérések között.
# Fontos: Légy udvarias! Ne terheld túl a szervert!
# Ha túl gyorsan kéred le az adatokat, blokkolhatnak. 🐢

MAX_LEVEL=5 # A letöltési mélység limitálása.
# Néha nem akarjuk az egész internetet letölteni, csak az első pár réteget.

OUTPUT_DIR_BASE="web_archivumok" # Alap könyvtár az archívumoknak

# --- Függvények ---

# Segítség megjelenítése
show_help() {
    echo "Használat: $0 <URL> [kimeneti_könyvtár]"
    echo ""
    echo "Ez a szkript letölt egy teljes weboldalt offline megtekintés céljából."
    echo "Olyan opciókat használ, mint a rekurzív letöltés, linkek konvertálása,"
    echo "és a szerver udvarias megközelítése."
    echo ""
    echo "Példák:"
    echo "  $0 https://www.example.com"
    echo "  $0 https://blog.valami.hu/cikkem/ sajat_blog_cikkem"
    echo ""
    echo "Megjegyzés: A szkript tiszteletben tartja a robots.txt fájlt, de kérlek, mindig légy etikusan!"
    echo "Ne tölts le túl nagy mennyiségű adatot indokolatlanul, és ne terheld túl a szervereket!"
}

# Ellenőrizzük, hogy a wget telepítve van-e
check_wget() {
    if ! command -v wget &> /dev/null; then
        echo "Hiba: A 'wget' parancs nem található."
        echo "Kérlek, telepítsd a wget-et a folytatáshoz."
        echo "Linuxon: sudo apt-get install wget vagy sudo yum install wget"
        echo "MacOS-en: brew install wget"
        exit 1
    fi
}

# --- Fő logika ---

# Check wget
check_wget

# Ellenőrizzük az argumentumok számát
if [ "$#" -lt 1 ]; then
    show_help
    exit 1
fi

URL="$1"
# Ellenőrizzük, hogy az URL érvényesnek tűnik-e
if [[ ! "$URL" =~ ^https?:// ]]; then
    echo "Hiba: Az URL formátuma nem megfelelő. Kérlek, adj meg egy érvényes URL-t (pl. https://www.example.com)."
    exit 1
fi

# Kimeneti könyvtár meghatározása
# Ha a felhasználó megadott egy második argumentumot, azt használjuk.
# Ha nem, akkor az URL domain neve alapján generálunk egyet.
if [ -n "$2" ]; then
    OUTPUT_DIR="$2"
else
    # URL feldolgozása a könyvtárnévhez
    HOST=$(echo "$URL" | sed -E 's/https?://(www.)?([^/]+)/?.*$/2/' | sed 's/./_/g' | sed 's/-/_/g')
    OUTPUT_DIR="${OUTPUT_DIR_BASE}/${HOST}_$(date +%Y%m%d%H%M%S)"
fi

echo "🚀 Elindítom a digitális archiválást!"
echo "URL: $URL"
echo "Cél könyvtár: $OUTPUT_DIR"
echo "Várakozási idő lekérések között: $DELAY másodperc"
echo "Maximális mélység: $MAX_LEVEL"
echo ""

# Hozzuk létre a kimeneti könyvtárat, ha még nem létezik
mkdir -p "$OUTPUT_DIR"

# Fő wget parancs a weboldal letöltésére
wget 
    --recursive 
    --no-clobber 
    --page-requisites 
    --html-extension 
    --convert-links 
    --restrict-file-names=windows 
    --domains $(echo "$URL" | sed -E 's/https?://(www.)?([^/]+)/?.*$/2/') 
    --no-parent 
    --wait="$DELAY" 
    --level="$MAX_LEVEL" 
    --user-agent="$USER_AGENT" 
    --directory-prefix="$OUTPUT_DIR" 
    --timestamping 
    --no-check-certificate 
    "$URL"

# --timestamping: Csak akkor tölti le a fájlokat, ha azok újabbak a helyi másolatnál.
#                 Ez a frissítéshez zseniális!
# --no-check-certificate: Kerüli az SSL tanúsítványok ellenőrzését.
#                         Ez néha hasznos lehet, de óvatosan használd,
#                         főleg ha érzékeny adatokat kezelő oldalakat akarsz menteni!
#                         Általában hagyjuk ki, kivéve ha tudjuk, mit csinálunk.

if [ $? -eq 0 ]; then
    echo "🥳 Sikeresen letöltöttem a(z) $URL oldalt a(z) $OUTPUT_DIR könyvtárba!"
    echo "Nyisd meg a(z) $OUTPUT_DIR/index.html fájlt (vagy a főoldal HTML fájlját) egy böngészőben offline megtekintéshez."
else
    echo "😔 Hiba történt a letöltés során. Kérlek, ellenőrizd az URL-t és a hálózati kapcsolatot."
    echo "Lehet, hogy az oldal blokkolta a lekérést, vagy problémás a robots.txt."
fi

exit 0

Hogyan használd a szkriptet?

Másold be a fenti kódot egy szövegszerkesztőbe.
Mentsd el például archivalo.sh néven.
Tedd futtathatóvá a szkriptet a terminálban: chmod +x archivalo.sh

Futtasd az alábbi paranccsal, lecserélve az URL-t arra, amit le akarsz tölteni:


./archivalo.sh https://blog.example.com/ertekek/a_tudomany_fejlodese

Vagy ha egyedi kimeneti mappát szeretnél:


./archivalo.sh https://www.valami.hu/receptek/sutes-fozes/pizzas_csiga sajat_pizzas_csiga_receptek

A szkript automatikusan létrehoz egy web_archivumok mappát a szkript mellett, és azon belül egy alkönyvtárat a letöltött oldalnak. Például, ha a https://example.com-ot töltötted le, a fájlok a web_archivumok/example_com_20231027153045/ mappába kerülnek.

Windows 7 újratelepítés előtelepített laptopra: Részletes útmutató

Fontos tanácsok és etikai megfontolások ⚖️

Bár a wget hatalmas lehetőségeket rejt, fontos, hogy felelősségteljesen használjuk. Gondoljunk bele: nem akarjuk, hogy egy weboldal szervere túlterhelődjön a mi archiválási vágyunktól, ugye? 🤔

Tiszteld a robots.txt fájlt: A wget alapértelmezésben tiszteletben tartja a weboldalakon található robots.txt fájlt, ami megmondja, mely részeket nem szeretnék, hogy robotok (és így a wget) indexeljenek vagy letöltsenek. Soha ne tiltsd le ezt az opciót (--execute robots=off), hacsak nem feltétlenül muszáj, és tudod, mit csinálsz!
Légy udvarias! (--wait és --limit-rate): A szkriptünk már tartalmazza a --wait opciót, ami várakozási időt iktat be a lekérések közé. Ez kulcsfontosságú, hogy ne bombázd a szervert. A --limit-rate opcióval beállíthatod a maximális letöltési sebességet is, ami szintén kíméli a szervert.
Ne tölts le privát vagy illegális tartalmat: Csak olyan tartalmakat ments le, amelyek nyilvánosan hozzáférhetők és nem sértik a szerzői jogokat vagy az adatvédelmi törvényeket. A felelősség a tiéd!
Tárhely igény: Egy nagyobb weboldal több gigabájtnyi adatot is kitehet. Győződj meg róla, hogy van elegendő szabad helyed a merevlemezen, mielőtt belekezdesz egy masszív archiválásba.

Mi van, ha az oldal dinamikus? (JavaScript, single-page appok) 💡

Fontos megjegyezni, hogy a wget elsősorban statikus tartalmú weboldalak archiválására optimalizált. Ha egy weboldal intenzíven támaszkodik JavaScriptre a tartalom betöltéséhez (pl. egy modern single-page application, mint a React, Vue, Angular alapú oldalak), akkor a wget nem fogja ezeket a JavaScript által generált tartalmakat letölteni. 🤷‍♀️ Ilyen esetekben fejlettebb eszközökre van szükség, mint például a headless böngészők (pl. Puppeteer, Playwright), amik egy valódi böngészőmotorral renderelik az oldalt, majd mentik le. Ezek már bonyolultabbak, de az alapokhoz a wget tökéletes!

Következtetés: Légy a saját archívumőröd! 📜

Gratulálok! Most már tudod, hogyan ments le weboldalakat egyetlen Bash paranccsal, és hogyan válj a saját digitális örökséged védelmezőjévé. Ez a kis szkript nem csupán egy technikai megoldás, hanem egy eszköz a tudás megőrzésére, a nosztalgia fenntartására és a jövő biztosítására. Soha többé nem kell aggódnod amiatt, hogy egy értékes információ eltűnik az internet homályában. A weboldalak archiválása egy hasznos készség, ami megvédi a digitális tartalmaidat az idő múlásával szemben.

Kezdj el archiválni még ma! Fedezd fel a wget további lehetőségeit (man wget), fejleszd tovább a szkriptet, és oszd meg a tudásod másokkal! Boldog archiválást! 🥳

Tech

Mennyit ér a tudásod? Íme egy vizsgafeladat – Te mennyiért és mennyi idő alatt vállalnád?

Friss RGH-s Xbox 360 telepítés a láthatáron? A teljes útmutató, hogy semmit se ronthass el

Életre kel a képernyő: Így érheted el, hogy a szöveg mozogjon!

Csapatot építenél? Hol lehet embert találni egy kezdő IT projekthez?

Kód és előítélet: Milyen kihívásokkal néz szembe egy nő programozó a munkahelyén?

Zero-install távoli PC elérés: Valóban lehetséges parancsokat indítani egy gépen telepítés nélkül?

Express Posts List

Életet lehelnél a Myaudio power tabletedbe? Minden, amit a custom rom telepítéséről tudnod kell

Amikor a JavaScript és a PHP összecsap: Miért nem működik együtt ez a kód?

JAVA programozás a nulláról: Ez az egyetlen útmutató, amire szükséged lesz a kezdéshez

C függvények mesterkurzus: A deklaráció, definíció és prototípus rejtelmei

A tesztelői karrier útvesztője: Megéri befejezni a programtervezői bsc-t, ha a tesztelés vonz?

Vélemény, hozzászólás? Válasz megszakítása

Kapcsolódnak

Összement a konzol C#-ban? Így állíthatod vissza a betűket egyetlen mozdulattal!

A javac rejtelmei: Útmutató kezdőknek, hogyan kell egy Java programot lefordítani

Több, mint egy egyszerű leállítás: A CMD `shutdown` parancs minden titka!

Miért nem indul a .bat fájl? A programból indított batch programok leggyakoribb hibái

Parancssori argumentum kezelése C nyelven: Útmutató kezdőknek és haladóknak

A cp parancs szuperképessége: így másolhatsz egy fájlt több almappába Linux alatt

Olvastad már?

Életet lehelnél a Myaudio power tabletedbe? Minden, amit a custom rom telepítéséről tudnod kell

Amikor a JavaScript és a PHP összecsap: Miért nem működik együtt ez a kód?

JAVA programozás a nulláról: Ez az egyetlen útmutató, amire szükséged lesz a kezdéshez

C függvények mesterkurzus: A deklaráció, definíció és prototípus rejtelmei

A tesztelői karrier útvesztője: Megéri befejezni a programtervezői bsc-t, ha a tesztelés vonz?

Ne maradj le

Életet lehelnél a Myaudio power tabletedbe? Minden, amit a custom rom telepítéséről tudnod kell

Amikor a JavaScript és a PHP összecsap: Miért nem működik együtt ez a kód?

JAVA programozás a nulláról: Ez az egyetlen útmutató, amire szükséged lesz a kezdéshez

C függvények mesterkurzus: A deklaráció, definíció és prototípus rejtelmei

Tech

Express Posts List

Miért fontos a weboldalak archiválása? 🤔

A Mágikus Eszköz: wget 🪄

A wget alapjai: Egy gyors bevezetés

A Digitális Archivátor Szkriptje: Egyetlen Parancs! 🤖

Hogyan használd a szkriptet?

Fontos tanácsok és etikai megfontolások ⚖️

Mi van, ha az oldal dinamikus? (JavaScript, single-page appok) 💡

Következtetés: Légy a saját archívumőröd! 📜

Vélemény, hozzászólás? Válasz megszakítása

Kapcsolódnak

Ne maradj le

A Mágikus Eszköz: `wget` 🪄

A `wget` alapjai: Egy gyors bevezetés