Fő kategória: Böngészés.
A világháló felépítése
A világhálót (angolul world wide web, vagy röviden csak web; ez utóbbit magyarul is szokás használni) 3 fő részre oszthatjuk:
- Felszíni web (surface web): ez a webnek teljesen nyíltan és a publikusan elérhető része, ahova tehát még ingyenes regisztráció sem szükséges. Fontos tudnunk, hogy az általános a keresőmotorok kizárólag ezeken az oldalakon tudnak keresni. Tipikus példája a Wikipédia, aminek minden egyes oldala mindenki számára ingyenesen elérhető. Becslések szerint a teljes webnek mindössze 4%-a esik ebbe a kategóriába. A legfontosabb oldalakat külön gyűjtöttem a webes szolgáltatások fejezetben.
- Mély web (deep web): ide azok a hagyományos technológiákkal elérhető oldalak tartoznak, amelyek már nem érhetőek el publikusan és korlátlanul mindenki számára, így az általános keresőmotorok sem tudnak ezekben keresni. Ide tartoznak pl. a vállalati intranetek, amelyek csak bizonyos IP tartományon belül érhetőek el, vagy azok az oldalak, amelyeket csak belépést követően láthatunk, és akkor is csak azokat a tartalmakat, amelyekhez jogosultságunk van. Ez utóbbira jó példa a Facebook: regisztráció nélkül minimális tartalmat láthatunk csak, és belépés után is csak azokat a bejegyzéseket láthatjuk, amit velünk megosztottak. A tudományos cikkek jelentős része is ide sorolható. Ez teszi ki a web legjelentősebb hányadát; becslések szerint az össztartalom kb. 90%-a esik ebbe a kategóriába.
- Sötét web (dark web) vagy láthatatlan web: a webnek azon része, amely hagyományos módon nem érhető el, tehát vagy különleges technológiára van szükség ehhez, vagy kívülről fizikailag elérhetetlen, privát hálózatról van szó. Becslések szerint a teljes webnek kb. 6%-a található itt. A legismertebb megvalósulása a Tor (The Onion Router, hagyma elosztó). Ehhez speciális böngészőre van szükség, amit a https://www.torproject.org/ oldalról tudunk letölteni. Aki részletesebben érdeklődik a téma iránt, annak ajánlom az alábbi oldalt: https://www.vpnmentor.com/blog/whats-the-dark-web-how-to-access-it-in-3-easy-steps/. Néhány fontos információ elöljáróban: a sötét webet nem kizárólag illegális dolgokra lehet használni, bár a bűncselekmény kategóriába eső tartalmak ide kerülnek / kényszerülnek.
Anonimitás a neten
Részeket már érintettünk; most álljon itt egy összefoglaló arról, hogy milyen anonimitási szintek léteznek az interneten.
- A kiindulási alap az alábbi: a felhasználó megnéz egy weboldalt. Azt gondolnánk, hogy a számítógép csak egy eszköz; honnan tudná, hogy mi kik vagyunk, és biztonságban érezzük magunkat, de az hamis biztonság, Ekkor ugyanis:
- Ugyanazt a böngészőt utánunk használó tudni fogja, hogy meglátogattuk az adott lapot.
- Az adott lap egész jól be tud minket azonosítani. Az IP címünket, ezáltal a hozzávetőleges tartózkodási helyünket, valamint az ún. user agent stringet (ami azonosítja az eszköz típusát, az operációs rendszert és a böngésző pontos típusát is) úgymond "hivatalból" megkapja, ami már egész komoly beazonosítást tesz lehetővé.
- Ha ugyanazzal a böngészővel be vagyunk (vagy csak be voltunk!) jelentkezve egy olyan oldalra, ahol megadtunk részletesebb információt magunkról (pl. Facebook), akkor tudni fogják a nevünket, az életkorunkat, az elérhetőségeinket, a munkahelyünket, az iskoláinkat, a családtagjainkat stb.
- A böngészési adatainkból egy egész komoly profilt építenek fel rólunk: mi a hobbink, merre utazunk, merre szeretnénk utazni stb.
- A szolgáltatónak a szerződéskötéskor megadtuk a nevünket, lakcímünket (valahova be kellett vezetni a netet), személyi igazolvány számunkat stb.
- A tartalom (szélsőséges esetben még a jelszót is beleértve) teljesen titkosítatlanul halad végig a köztes szervereken, ami nem determinisztikus.
- Tehát noha csak egy számítógépet használva letöltünk egy tartalmat egy másik számítógépről, ez nem olyan személytelen, mintha elindítanánk egy mosást egy mosógéppel. Minden kiderül rólunk: nem a számítógépünkről, hanem mi magunkról, a személyünkről. Mire lehet ezt használni? Pl. arra, hogy célirányos reklámokat dobjanak fel, magzsaroljanak vagy hatósági intézkedéseket foganatosítsanak. Félelmetes, igaz? Na emiatt érdemes az anonimitással foglalkozni!
- Böngészési előzmények törlése: ezzel azt érjük el, hogy ugyanazt a böngészőt utánunk használó ne tudja meg, hogy milyen oldalakat nézegettünk.
- Az utánunk számítógéphez ülő nem fogja látni, hogy milyen oldalakat látogattunk.
- De az szembetűnő lesz, hogy törölve vannak az előzmények, és ennek általában oka van.
- A internetszolgáltató, a köztes szerverek és a tartalomszolgáltató továbbra is mindent tud.
- Privát böngészés: ennek nem marad nyoma a saját számítógépen.
- Aki ugyanazt a böngészőt használja, az nem tudja meg, hogy milyen oldalakat látogattunk.
- A rendes böngészés során elmentett sütiket nem adja ki a böngésző, valamint az itt ideiglenes sütik azonnal törlődnek, így az internetes lábnyomunkat ill. profilunkat elvileg ez nem befolyásolja.
- Az internetszolgáltató továbbra is pontosan követi és naplózza is a tevékenységünket. A köztes szerverek szintúgy, ill. a célszerver is megkapja a fenti adatokat. Nettó végeredményben tehát az információtöredékekből még így is egész jól beazonosíthatóak maradunk. Tehát ha egy sötét diktatúra ellen szeretnénk szervezkedni úgy, hogy a tevékenységünk láthatatlan maradjon a hatóságok számára, akkor ne a privát böngészés legyen az egyetlen védelmi rendszerünk.
- Titkosított csatorna (https): a fentiekkel talán a legnagyobb probléma az, hogy az adat titkosítatlanul történt.
- Az összes köztes szerver (beleértve az internetszolgáltatónkat is, akinek ugye megadtuk a személyes adatainkat) pontosan látja az elküldött és a fogadott adatokat is. Tehát nemcsak azt a tényt rögzíthetik, hogy ekkor és ekkor ez és ez ezt és ezt az oldalt töltötte le, hanem magát a tartalmat is, valamint azt is, hogy ha ki kellett tölteni egy formanyomtatványt, akkor mit írtunk be, beleértve a jelszónkat is.
- A https használatával azt érjük el, hogy a küldött ill. fogadott adatokat csak mi és az érintett szerver fogja tudni, a köztes szerverek nem.
- A https a szerver szolgáltatása, arra nekünk nincs ráhatásunk. Annyit tudunk tenni, hogy megnézzük a fejlécben, hogy az URL http://-vel vagy https://-sel kezdődik-e, és az előbbi esetben nem adunk meg érzékeny adatot.
- Az viszont, hogy milyen tartalmat töltöttünk le, továbbra is naplózódik. Azt már nem tudja elmenteni az internetszolgáltató, hogy milyen adatot adtunk meg, de azt a tényt már igen, hogy kitöltöttük a formanyomtatványt, ill. hogy meglátogattuk az adott oldalt. Ha ez publikusan elérhető, jelszó nélkül, akkor természetesen a tartalmát is látják; ha nem, akkor is lehet tudni, hogy milyen oldalról van szó. Egy diktatúra elleni szervezkedésre tehát még a https sem nyújt megfelelő védelmet.
- VPN: ezzel megváltoztatjuk az alapértelmezett tulajdonságainkat.
- Az internetszolgáltató annyit fog látni, hogy a teljes adatforgalmunk egy adott szerveren keresztül zajlik. Tehát ha letöltünk egy weboldalt úgy, hogy be vagyunk jelentkezve egy VPN szolgáltatóhoz, akkor au internetszolgáltató a VPN szervert fogja naplózni.
- A VPN szolgáltató már tudni fogja, hogy ténylegesen milyen tartalmat töltünk le. A https magára a tartalomra a VPN szolgáltató előtt is biztonságot ad.
- Ez egy nagyon bizalmi téma: kritikus kérdés, hogy a VPN szolgáltató naplózza-e a tevékenységünket. Ha igen, akkor továbbra sem lehetünk teljes biztonságban. Persze a hatóságok nehezebben gyűjtik be az adatokat egy külföldi szolgáltatótól, mint az ő hatókörükben levő internetszolgáltatótól, de ha nagyon csúnya dolgot tesz az ember, és azt naplózzák, akkor nem alhat teljesen nyugodtan.
- Ha a VPN szolgáltató garantálja azt, hogy nem naplózza a tevékenységet, akkor az nagyobb biztonságot jelent. De még ez sem nyújt teljesen 100%-os védelmet: a sokféle operációs rendszer és böngésző miatt ezzel is meglehetősen jól beazonosíthatóak vagyunk (messze nem egy a hét és félmilliárdból), és egy olyan ártatlannak tűnő művelet, mint egy böngésző átméretezés is eredményezhet egy olyan naplóbejegyzést a célszerveren, ami plusz információt jelenthet az potenciálisan ellenünk nyomozóknak. Persze ez már nem egy magánszemély által felbérelt nyomozó szintje, és még nem is egy átlagos bűncselekmény felgöngyölítése, hanem az a szint, hogy a világ egyik legjobb titkosszolgálata szeretne felderíteni valamit. (Klasszikus példaként szokás említeni azt, hogy a hétköznapi emberek által elérhető védelem a Moszad ellen nem véd.)
- TOR, ill. egyéb speciális böngészők, kombinálva VPN-nel:
- Az internetszolgáltató annyit lát, hogy VPN-t használunk, de hogy mire, azt nem.
- Ideális esetben ezek a böngészők semmilyen támpontot nem adnak: nem küldenek pl. valós user agent stringet.
- Az egyes szerverek a VPN-nek beállított kamu országot ill. IP címet látják, nem a valósat.
- Elméletben tökéletes a megoldás, a gyakorlatban a gyenge láncszem az ember maga. Egy teljesen hamis alteregót kell kialakítani, pl. létre kell hozni egy kamu e-mail címet. Viszont nem nyújt 100%-os védelmet, ha a másod e-mail cím jelszava megegyezik az elsődlegesével, vagy akár csak egyszer is előfordult az, hogy ugyanarról a számítógépről egyszerre bejelentkeztünk a rendes és a másodfiókunkba is. Az interneten 100%-os aninimitást elérni rendkívül nehéz.
Mekkora a web?
Sokakban felmerülhet, hogy mekkorára nőtt egyáltalán a web? Röviden: emberi ésszel felfoghatatlan méretűre. Ezzel kapcsolatos pontos információkat nem találtam, csak becsléseket. Néhány érdekesség:
- A web méreténél meg kell különböztetnünk a tartalom összmennyiségét, valamint az egységnyi idő alatt (pl. évente) megmozgatott adatforgalmat.
- Az írás pillanatában mindkét szempontból a zettabájt korát éljük.
- Mekkora a zettabájt? Próbáljuk meg felfogni!
- Bájt: ezt még könnyű felfogni: egy bájt 256 értéket vehet fel. Pl. bizonyos kódolásoknál egy karakter egy bájt.
- Kilobájt: 1024 bájt. Ez is felfogható: pl. egy-egy ilyen oldal mérete pár tíz kilobájt. Talán sokan emlékszünk a Commodore 64 és ZX Spectrum számítógépekre: a legtöbb esetben ezeknek a teljes memóriája 64 kilobájt volt. Idézzük fel Bill Gates híres jóslatát: "640 kilobájt mindenkinek elég lesz".
- Megabájt: itt a váltószám már nem egységes: lehet 1024 kilobájt, 1000 kilobájt, vagy egyenesen 1.000.000 bájt. A nagyságrend a lényeg. A '90-es években a 286-os, 386-os 486-os PC-k memóriája volt megabájtos nagyságrendű. A flopi lemez mérete volt 1,2 ill. 1,44 megabájt. Az említett időszakban a merevlemez mérete több tíz vagy több száz megabájtos nagyságrendű. Ma egy fotó nyers mérete több (akár több tíz) megabájt. Egy mp3 zeneszám hossza ugyancsak pár megabájt.
- Gigabájt: a megabájt ezerszerese (vagy 1024-szerese). Az írás pillanatában személyes használatban a gigabájtok korszakát éljük. A laptopok, tabletek, okostelefonok memóriájában tipikus nagyságrendje: az egy gigabájt általában már kevésnek, a 32 pedig kifejezetten nagynak számít. Egy megfelelően tömörített másfél-két órás film mérete gigabájt nagyságrendű. A tipikusan használt tárolók mérete több száz gigabájt. Az ingyenes Gmail fiók maximális mérete 17 gigabájt.
- Terrabájt: a gigabájt ezerszerese (vagy 1024-szerese). A személyes használatú dolgok méretnek felső nagyságrendje. A külső tárolók tipikus mérete terrabájt nagyságrendű.
- Petabájt: a terrabájt ezerszerese (ill. 1024-szerese). Egy nagyobb méretű multinacionális vállalat által hosszú évek során felhalmozott, és felhőben tárolt adatmennyiség tipikus nagyságrendje. A józan emberi ésszel felfogható mennyiség felső nagyságrendje.
- Exabájt: a petabájt ezerszerese (ill. 1024-szerese). Ez az óriási szoftvercégek által kezelt adatmennyiség nagyságrendje lehet.
- Zettabájt: az exabájt ezerszerese (ill. 1024-szerese). Az írás pillanatában web teljes mérete több tíz, akár több száz exabájt nagyságrendű, ahogy az éves adatforgalom is.
- Jottabájt: a zettabájt ezerszerese (vagy 1024-szerese). Pár éven belül elérjük ezt a méretet.
- A növekedés exponenciális, így elképzelhető, hogy akkor, amikor valaki ezt olvassa, már a jottabájt korában leszünk.
- A weboldalak számára is csak becslések vannak, melynek nagyságrendje több tízmilliárd. Tehát minden emberre a világot több weboldal jut.
- A web méretét, ill. annak növekedési ütemét pár adattal illusztrálom:
- A YouTube-ra percenként 500 órányi új videó kerül fel. Ez az érték folyamatosan növekszik.
- Az írás pillanatában a Facebook felhasználók száma már elérte a 3 milliárdot.
- A Twitteren másodpercenként 6000 új bejegyzés keletkezik.
Web 2
Hogyan viszonyul a tömeg intelligenciája az egyénéhez?
Mielőtt megértjük, hogy hogyan jön ez ide, és megpróbáljuk megválaszolni a kérdést, lássuk, hogy hogyan fejlődött az internet! Az internet fejlődésének kezdeti fázisában a weboldalak statikusak voltak: szöveget, képet, táblázatokat stb. tartalmaztak, ill. még egy dolgot a tényleg hagyományos, papírra nyomtatott tartalomhoz képest: más oldalakra történő hivatkozásokat, azaz linkeket. Ennek a letisztult változatát hívjuk web 1-nek.
A web 2 jellegzetességei
A web 2-ben megjelenik az olvasó is, aki befolyásolja a tartalmat. A határ a web 1 és a web 2 között nem éles, és hosszú folyamat vezetett a kialakulásához. Néhány fontos lépés:
- Kommentelési lehetőség: az olvasó megjegyzés fűzhet egy-egy oldalhoz. A megjegyzésekhez további megjegyzéseket fűzhetünk. Ez egyébként a parttalan és rendkívül alacsony színvonalú viták melegágya. A kommentelés speciális esete a fórum, ahol nincs is fő tartalom, hanem a tartalom maga a komment folyam.
- Visszajelzések: itt beszélhetünk explicit és implicit visszajelzésről. Explicit az,a mikor megcsillagozhatjuk, hogy mennyire tetszett a tartalom, bár ez a ritkább. Implicit alatt a látogatottságot értjük. Egy weboldal tipikusan nagyon sok lapból áll, és az, hogy mi kerül a főoldalon előkelő helyre, függhet az egyes oldalak népszerűségétől is. Tehát azzal, hogy egy hírre kattintunk, mi magunk is befolyásoljuk a népszerű portálok főoldalát.
- Kérdések: meg lehet kérdezni az olvasók véleményét, ahol pár lehetőségből választhat egyet. Jópofa dolog szerintem, mert nem süllyed vállalhatatlan szintre, és mégis meg lehet tudni a többség véleményét.
- Közös szerkesztés: azt gondolom, hogy ezzel lett teljes és letisztult a web 2. Az olvasó itt már magát a tartalmat is szerkeszti. A legismertebb ilyen szerkesztő motor a wiki, a legnépszerűbb oldal pedig a Wikipédia.
- Közösségi oldalak: ezek már a web 2 túlhaladásai; a jövőben talán úgy fognak rá hivatkozni, mint a web 3 első lépései, ahogyan ma a kommentelésre mondjuk azt, hogy a web 2 irányába tett első lépés. Ezeken az oldalakon nemcsak egyszerűen megjelenik az olvasó, hanem az olvasó maga a tartalom. Ezeket is két nagyobb kategóriába sorolhatjuk, melyek között a határ nem éles: az egyikbe azokat az oldalakat sorolom, mely tartalmaz közösségi modult, de nem ez az elsődleges célja, azaz van attól független tartalom. A másik kategória a tiszta közösségi oldal, ahol csak, vagy döntőrészt olyan tartalom található, amit a közösség tagjai megosztanak, önálló tartalom nincs, vagy csak elenyésző. Az elsőre példa a BoardGameGeek (társasjáték oldal), az utóbbira pedig a Facebook. De mi is az a közösségi modul? A regisztrált felhasználók be tudják egymást jelölni ismerősnek (ami lehet aszimmetrikus is; ez esetben követésnek hívjuk), és az így megjelölt felhasználók által megosztott tartalmat látják. Többnyire tudnak egymásnak privát üzenetet küldeni, ill. általában van lehetőség arra, hogy valami módon reagáljanak a megosztott tartalomra, pl. valamilyen jelzés formájában, esetleg hozzászólásban.
Wikipédia
https://www.wikipedia.org/, https://hu.wikipedia.org/
A Web 2 klasszikus példája a Wikipédia. Valószínűleg mindenki ismeri: ez egy olyan online enciklopédia, melyet teljes egészében a közösség fejleszt, tehát bárki bármit beleírhat. Sokan szokták szidni, hogy ilyen rossz, meg olyan rossz, így most én nem túl népszerű módon az előnyeire próbálok rávilágítani. Én azt gondolom, hogy a Wikipédia az emberiség történelmének az egyik legnagyobb kincse, egy megbízható információforrás, amelyre lehet alapozni. Persze csak módjával.
Felsorolok néhány tipikus vádat a Wikipédiával szemben, melyeket megpróbálok cáfolni:
- Bárki bármit beleírhat, így az információ minősége kérdéses. A valóság az, hogy vannak olyan fékek, amelyek megakadályozzák a trollok szerkesztéseit. Ha ugyanis valaki szerkesztett egy oldalt, akkor értesítést kap a további változtatásokról, és ha azt tapasztalja, hogy rossz információ került bele, akkor vissza tudja vonni. Minél fontosabb egy téma, annál valószínűbb, hogy nagyszámú jó szándékú szerző figyeli, és áll vissza a rend. Ezen kívül vannak olyan szerkesztők, akik folyamatosan figyelik a friss változtatásokat, és közbelépnek a nyilvánvaló troll szerkesztések esetén.
- Mivel ugyanúgy az olvasók szerkesztik, mint ahogy a kommenteket írják, nyilvánvalóan ugyanaz a minőség lesz az eredménye. Ez egyáltalán nem igaz! Elsősorban vannak szerkesztési irányelvek, és ha valaki olyan tartalmat ír, ami ezeknek az irányelveknek nem felel meg, akkor törlik. A helyesírási, gépelési és stilisztikai hibák, ahogyan a durva tévedések is, gyorsan javulnak, legalábbis a fontosabb, sokak által olvasott cikkekben. Képzeljük el ezt úgy, mintha mindenkinek lenne egy kátyúzó eszköze, és bárki bármikor megjavíthat egy kátyút: a főútvonalakon, ahol sokan járnak, a kártyúk gyorsan eltűnnének, mert minél többen járnak arra, annál valószínűbb, hogy lesz, aki megjavítja.
- A népszerű témák előnyt élveznek a fontos témákkal szemben. Ebben van is igazság, meg nincs is. Egyrészt: mi az, hogy népszerű, és mi az, hogy fontos? Nem az a fontos, ami sokakat foglalkoztat? A valóban fontos témákról szerintem van szócikk. Persze az igaz, hogy a súlyok kicsit valóban eltolódnak a populáris dolgok irányába, de fontos megérteni, hogy nem a másik téma kárára történik. Azaz nem arról van szó, hogy az enciklopédiának van egy limitált mérete, és a Gyűrűk ura szereplőinek a részletezését csak a középkori Erdély egyháztörténetének a rovására lehet bővíteni. Ezen kívül ha van egy téma, amiről azt gondoljuk, hogy fontos, de még nincs róla szócikk, akkor fel vagyunk hatalmazva arra, hogy elkészítsük! Ami valójában olyan lesz, amilyen, de ha valóban fontos témát érint, akkor lesznek, akik olvassák, és adott esetben javítják.
- Hallottam valakitől, hogy az ismerősének a volt kollégiumi szobatársa a beadandójában a Wikipédiára hivatkozott, és a tanár lepontozta. Tehát a Wikipédia megbízhatatlan. A Wikipédia alapkérdésekben megbízható. Olyan területeken, amely kevés embert érint, már lehetnek benne vadhajtások. Fontos alapelv egyébként az, hogy a Wikipédia nem lehet elsődleges publikációs forrás. Fontosak az idézett eset pontos részletei, ami általában nem szokott oly mértékbe kiderülni, amilyen mértékben szükséges ahhoz, hogy érdemben állást lehessen foglalni. Egy friss eredményeket tartalmazó tudományos cikk esetén valóban nem szerencsés a Wikipédiára hivatkozni. De pl. abban a kérdésben, hogy melyik országnak mi a fővárosa, vagy hogy mikor ki volt Magyarország miniszterelnöke, bátran hagyatkozhatunk és hivatkozhatunk is a Wikipédiára.
A valóságban sokan sokfélék vagyunk. Vannak, akik meglátják a fontos témát, de elnagyolják a dolgot. Vannak, akik elmélyednek a részletekben, de esetleg nem ismerik a technikai lehetőségeket. Van olyan, aki új tartalmat nehezen tud létrehozni, viszont szép táblázatokat és formázásokat hajt végre meglévő tartalmakon. Van, aki megtalálja az összefüggéseket az oldalak között. Van, aki jól fogalmaz, és átalakítja úgy, hogy olvasmányosabb legyen. Van, aki szorgalmas hangyaként javítja a gépelési és helyesírási hibákat. Van, aki egy-két mondattal kiegészíti a már kialakult tartalmat. Van, aki a trollokat figyelve őrzi az egész minőségét. Külön-külön közepes minőséget produkálnának, együtt viszont kimagasló eredményt érnek el.
Nyilván minél fontosabb egy téma, annál inkább igazak a fentiek. És természetesen függ a nyelvtől is: az angol nyelvű oldalakon sokkal több szerző dolgozik, mint pl. a magyaron, de a magyar is jól áll az annál sokkal kisebb nyelvekkel szemben.
Ezt az oldalt egyedül szerkesztem, így nagyon rányomja a bélyegét a stílusom. Minden bizonnyal sokat lehetne javítani ezen is, ha több szerkesztője lenne, pl. lenne valaki, akinek annyi lenne a feladata, hogy színesebbé tegye a már meglevő tartalmat.
Összefoglalva: fontos, sokakat foglakoztató kérdésekben durva hiba hosszú ideig nem marad benne. Ha valaki az angol nyelvű Wikipédián Franciaország fővárosaként Békéscsabát jelölné meg, az pillanatok alatt visszaállna. Ha valaki a máltai nyelvű Wikipédián egy nagyon speciális tudományterület nem túl ismert kutatója egyik cikkének a címét átírná valótlanra, akkor annak reális az esélye, hogy hosszú ideig úgy marad.
A határterületeken, amelyekkel csak kevesen foglalkoznak, és adott esetben csak egy szerző van, ott valóban kijön annak az egy embernek az egyéni stílusa, esetleg elfogultsága a téma iránt, és által írt szócikkek minősége nem biztos, hogy megüti a mércét. De ez eltörül az az óriási előny mellett, hogy valóban fontos kérdésekben a tudás elérhető mindenki számára, ingyen! Ez egy óriási előny, a 21. század vívmánya, ami az emberiség a teljes korábbi történelme során hiányzott, a tudás és az információ a kiváltságosok privilégiuma volt.
Google Translate
A fordítás sokkal bonyolultabb, mint azt elsőre gondolnánk, valójában a mesterséges intelligencia egyik csúcsteljesítménye. Első ránézésre tehát egyszerű a dolog: vannak szótárak és nyelvtani szabályok, a forrás szövegben megállapítjuk, hogy pl. mi a mondat alanya, tárgya stb., az egyes szavakat átfordítjuk a szótár alapján a másik nyelvre, és az ottani nyelvtani szabályoknak megfelelően összerakjuk az eredményt. "The grass is green." Magyarul: "A fű zöld." Látszólag egyszerű, és kezdetben így is próbálkoztak, valójában nem sok sikerrel, és ebben a formában abba is maradt, sőt kijelentették a kutatók, hogy fordítógépet készíteni nem lehet.
Idővel kitaláltak egy újabb módszert, de ez már a Web 2 időszakára esett: és az alapötlet a következő. A fenti mondat fordítása magyarul nem amiatt az, ami, mert a grass füvet, a green meg zöldet jelent, hanem amiatt, mert az angolul és magyarul is tudók döntő többsége így fordítaná át. Ez teljes egészében megfelel a nyelvészet modern személetével, ami nem megállapító, hanem leíró, magyarán nem azt mondja, hogy valami így és így helyes, ezért a tömegeknek így kell használniuk, hanem amiatt helyes így, mert a tömegek így hasz0nálják.
A fordítás módszere a következő: gyűjtenünk kell szövegeket mindkét nyelven, amelyek ugyanazt jelentik, és fordítás során azokban kell mintákat keresni. Valamint az olvasónak több lehetséges megoldást kell felkínálni, sőt, lehetővé kell tenni számára azt, hogy ő maga írja meg a fordítást, vagy javítson ki egy felajánlottat, ami később opcióként felmerül a többiek számára is, és az így legtöbb szavazatot kapott változat lesz fokozatosan az egyeduralkodó.
Kezeljük a helyén a dolgokat! Egy angol-francia átfordítás mindig is tökéletesebb lesz, mint egy bolgár-észt, egészen pontosan mindaddig így lesz, amíg a valamennyire angolul és franciául is tudók és fordítani akarók száma a világon jelentősen meghaladja a bolgárul és észtül is tudókét, ill. fordítani akarókét. Tehát ha egy furcsa félrefordítással találkozunk, akkor nem az a dolgunk, hogy olyan okosságokat mondjuk, hogy "megmondtam, hogy semmi értelme az automata fordításnak", hanem szorgalmas hangyaként javítsuk ki, és ezzel egy picit tegyük jobbá a világot.
IMDb
Az Internet Movie Database rövidítése, tehát filmekről találunk adatokat. Meghatározó része a visszajelzés: az olvasók egy tízes skálán értékelhetik a filmeket. Noha nem vagyunk egyformák, és mások ízlésével sokszor nagyon nem vagyunk kibékülve, az átlagos értékelés valahogy mégis olyan, amit elég jól el tudunk fogadni. Egy 9 feletti átlagos értékelésű filmben szinte biztos, hogy nem fogunk csalódni. Másik lényeges szempont az értékelést leadók száma, ami a film népszerűségére utal: ha egy olyan filmet választunk, amit sokan értékelnek, az azt jelenti, hogy sokan nézik is, így az értékeléstől függetlenül elmondhatjuk, hogy az egyetemes kultúra része. Magyar megfelelője a https://port.hu/.
A YouTube (https://www.youtube.com/) is nyilvánosságra hozza a megtekintések számát, valamint belül a tetszéseket (itt bináris), de a kereséskor sajnos nem a megtekintések száma szerinti csökkenős sorrendbe rendezi a találatokat, és nem is lehet ilyen rendezést kieszközölni. Itt a tetszések aránya nem sokat jelent, a megtekintések száma annál inkább! És hogy lássuk a Web 2 világ eredményességét: azzal, hogy nincs népszerűségi lista a YouTube-on, pedig igény lenne rá, az információ viszont rendelkezésre áll, a Wikipédián megjelentek a népszerű YouTube videókról szóló szócikkek. És itt persze felmerül egyes, a Wikipédiát előszeretettel bíráló emberekben a kérdés, hogy vajon a néspzerű YouTube videókról szóló szócikk miért van jobban kidolgozva, mint a Tanzánia irodalmáról szóló, hiszen ez utóbbi nyilvánvalóan fontosabb és magasztosabb, tehát a Wikipédia, sőt, az egész Web 2 természeténél fogva rossz. Eldöntöttem, hogy nem állok le vitázni az ///ilyenekkel/, csak azt mondom erre, hogy tudnunk kell helyén kezelni a dolgokat.
Quora
Gyakran találkozunk a neten provokatív kérdésekkel és bicskanyitogató válaszokkal, aminek következtében gyorsan felszalad a vérnyomásunk, és már csak az egészségünk érdekében is kerüljük ezeket a helyeket. Ugyanakkor voltak, akik ezen a téren is megtalálták a Web 2-ben rejlő lehetőségeket. A Quora ilyen: akármilyen is a kérdés, sokan válaszolhatnak rá, és - ami még fontosabb - a válaszokat lehet értékelni. A sok pozitív szavazatot kapó válasz kerül így előtérbe, és ezek tipikusan nagyon korrekt és igényesen megfogalmazott válaszok. Itt tehát olyan emberek alkotnak véleményt, akikkel külön-külön talán egyikkel sem értenénk egyet teljes egészében, mégis, a véleményke eredője az, amit várunk.
Internetes eladás
Tegyük fel, hogy kinézek valamit a neten, meg szeretném venni. Fogalmam sincs, ki az eladó, és az eladó sem ismeri a vevőt; lehet, hogy egész életükben ez lesz az egyetlen interakció közöttük. A terméket postán küldi az eladó; tegyük fel, hogy nincs lehetőség a személyes találkozóra. Hogyan oldjuk meg a fizetést? Alapból az eladó nyilván csak akkor küldené a terméket, ha megérdekezett a pénz, a vevő meg csak akkor fizetnék ki, ha megérkezett az áru. Mi a megoldás?
A Web 2! Az adásvételt lebonyolító oldalak lehetővé teszik a vásárlóknak és az eladóknak is, hogy értékeljék az adásvételt. A Vatera oldalon pozitív, semleges és negatív értékelést lehet adni. Az eladó neve mellett megjelenik egy súlyozott átlag, valamint az, hogy hány értékelésből jött össze ez az érték. Ha azt látjuk, hogy az eladó értékelése 99% feletti, ami több száz értékelésből adódik, akkor bátran utalhatunk. 95%-nál megnézhetjük a szöveges értékelést, 80% alatt megfelejtsük el azt, hogy tőle vásárolunk. Ez a mechanizmus biztosítja a biztonságos vásárlást.
Önvezető járművek
Az önvezető járművek fejlesztésének egy lényeges eleme tiszta web 2: a gyakorlatban az önvezető járművek ugyanis valójában hibrid járművek, a sofőr bármikor beavatkozhat. Ezeket a beavatkozásokat összegyűjtik, kielemzik, és a gyakran előforduló mintákra külön odafigyelnek az algoritmus fejlesztése során.
A tömeg intelligenciája
Lehetne még hosszasan sorolni a Web 2 jellegzetességeit (és számos Web 2 szolgáltatást majd látni fogunk), de most próbáljunk meg meg megválaszolni egy elsőre provokatívnak ható kérdést: hogyan viszonyul az egyén intelligenciája a tömegéhez? A tömeg intelligenciáját képesek vagyunk nagyon alacsonyra tenni. Gondoljunk csak egy pánikra: külön-külön mindenki tudja, hogy mit kellene tenni, a valóságban viszont letapossák egymást az emberek. Vagy gondolhatunk kevésbé drasztikus példára: egy internetes vitákban vajon hány igazán jó hosszászlást találunk? Alig egyet-kettőt. Igénytelen, buta, primitív, bicskanyitogató hozzászólást viszont annál többet! De gondolhatunk a nyilvános vécék állapotára is, amit szintén a tömegek használnak. Arról nem is beszélve, hogy hogyan szavazhat az a sok hülye arra a bizonyos pártra! Ezekből kiindulva hogyan merülhet fel egyáltalán az, hogy az tömeg intelligenciája nem egyértelműen alacsonyabb az enyémnél? Sokaknak már a kérdésfeltevés is sértő lenne!
Viszont ahogy láthattuk, megfelelő mederbe terelve a tömeg intelligenciája igenis kimagasló lehet! Egy ilyen eszköz a web 2. Láthattuk, hogy a Wikipédia mennyire jó összegzi az egyes emberek tudását, stílusát, igényességét, a közízlés eredője mennyire jól eltalálja a miénket, és a közösség ereje milyen jól mozgatja az eladások révén a gazdaságot. Lássunk most még két példát!
Kvíz
Az egyik kvízjátékban 4 válaszlehetőség közül választhatunk. Játszhatunk konkrét ellenfél ellen is, és a "tömeg" (az egész ország) ellen is; ez utóbbit úgy, hogy az ország válaszát annak veszi, amire a legtöbben szavaztak arra a kérdésre. Az országot szinte lehetetlen legyőzni! Ahhoz, hogy ez sikerüljön, az 9összes könnyű kérdésre tudnunk kell a választ (ez már önmagában nem igaz; mindenki számára vannak olyan, a tömegek számára könnyűnek számító kérdések, melyek számára nehezek), kizárólag nehéz kérdéseknél lehet pont előnyhöz jutni, viszont a nehéz kérdés természetszerűleg nekünk is nehéz. Úgy becsülöm, hogy az "ország" általában legyőzi az egyes játékosok több mint 99%-át.
Gó
Emlékszünk, amikor 1997-ben a Deep Blue legyőzte Kaszparovot? A teljes információs kétszemélyes játékok számítógépes intelligenciája ugyanarra a logikára épül: a számomra legkedvezőbb lépést úgy választom ki, hogy feltételezem, az ellenfelem is a számára legkedvezőbbet választja. Van egy értékelő eljárás, ami értékeli az állást: én olyat választok, hogy az maximális legyen, és feltételezem, hogy az ellenfelem olyat fog lépni, ami minimalizálja ezt az értéket. Olyan lépést kell tehát választanom, hogy legkevésbé tudja az ellenfelem azt minimalizálni. Az algoritmus neve minimax. Ha a játék végéig végig lehetne pörgetni az egészet (ahogy pl. a tic-tac-toe-ban lehet is), akkor az algoritmus a következőre egyszerűsödik: ha nyertem, az érjen +100-at, ha vesztettem -100-at, a döntetlen 0-t, ha pedig nincs vége, akkor mindenképpen pörgesse tovább. Ezt viszont a sakk esetében lehetetlenség megvalósítani, így valahol értékelni kell az állást anélkül, hogy tovább számolunk. Az értékelő függvény a kulcsa az egésznek: sakk esetén pl. vehetjük a figurák pontértékét, és valahogy súlyozhatjuk tovább, pl. egy sánc plusz pontot ér, egy izolált dupla gyalog mínuszt stb. A sakk esetén sikerült ezt az értékelő függvényt olyan jól elkészíteni, hogy már évtizedekkel ezelőtt legyőzte a sakk világbajnokot, és azóta csak tovább erősödött.
A gó esetén viszont ezt nem sikerült elérni: még én, gyenge játékosként is sokáig legyőztem a legerősebb fokozaton is a számítógépes gó programokat. Idővel (kb. két évtizeddel azután, hogy a sakk esetén megtörtént) bekövetkezett itt is az áttörés, és már legyőzte a számítógép az embert, viszont egészen más módon történt mindez, mint a sakk esetén. A világbajnokot legyőző gó program működési elve pont tömegek gó tudását összegzi. Egy adatbázis képez az addig lejátszott partikból, és ahelyett, hogy túlzottan előre számolna a minimax algoritmussal, azt lépi, amit hasonló pozícióban a legtöbben léptek. Tehát a sok, a világbajnoknál gyengébb, adott esetben sokkal gyengébb játékos lépéseinek az "eredője" elég arra, hogy legyőzze a világbajnokot!
A felhő
A felhő (angolul cloud) napjaink buzzword-je. Azt gondolom, hogy sokan nem vagyunk tisztában azzal, hogy mi is valójában a felhő. Leírok pár gondolatot, amiről azt gondolom, hogy egy átlagos felhasználónak is érdemes tudnia.
A mesét - szokásomhoz híven - távolról kezdem. Hogyan képzelünk el egy könyvesboltot egy tikkasztó, álmos nyári kedd délután? Alig lézeng valaki. (Legalábbis én így képzelem el. Ha nem így van, akkor képzeljük el, hogy így van.) És hogy néz ki ugyanaz a könyvesbolt mondjuk decemberben Aranyvasárnap? Alig lehet férni a tömegtől. (Egészen biztosan volt voltak idők, amikor alig lehetett férni a tömegtől. Ha az olvasás pillanatában már nem ez a helyzet, akkor képzeljük el, hogy mégis ez a helyzet.)
Hasonló a helyzet a webes könyvesboltok esetén is: a forgalom döntő hányada decemberre esik. Ilyenkor felmerül a kérdés, hogy mekkora szervert üzemeltessenek?
- Ha a legnagyobb forgalomra optimalizálják a szerverpark méretét, akkor üresben mennek a drága szerverek (fogyasztják az áramot, tartják karban a jól fizetett üzemeltetők, avulnak el stb.) szinte folyamatosan.
- Ha az átlagos forgalmat veszik figyelembe, ami lefedi mondjuk az idő több mint 95%-át, akkor pont akkor fognak lehalni a szerverek, amikor a legnagyobbat lehetne hasítani a könyveladásból. (Sajnálatos tapasztalatom egyébként az, hogy Magyarországon ezt a megoldást választják: az Iwiw pont akkor dobta be először a törülközőt, amikor milliók kezdték el használni, a választások honlapja menetrend szerint lehal a választások éjszakáján, ahogy a NAV honlapja is az adóbevallás utolsó napjaiban, valamint a felsőoktátási jelentkezési honlap a jelentkezés határidejének éjszakáján.)
A fenti dilemmával szembesült az Amazon is, amikor még online könyvesbolt volt, és egy igen innovatív megoldást talált ki, ami egyszerre eredményezte mindkettőt, és egy új iparágat teremtett a megoldásával: a szerverparkot a legnagyobb forgalomra méretezte, a felesleges kapacitását pedig egyszerűen eladta másoknak. Ugyanis más is szembesül a fent vázolt dilemmával, csak más időpontokban: egy választási honlapnak nem Aranyvasárnap lesz a legnagyobb forgalma, hanem a szavazás utáni éjszaka, egy online kerékpárbolt is inkább tavasszal fogja a forgalma nagy részét lebonyolítani, és a példákat lehetne sorolni (pl. a fentiekkel kiegészítve). Az ötlet tehát a következő:
- Lőjük be a kapacitást a számunkra legnagyobbra.
- Amikor nekünk nem kell, akkor adjuk el annak, akinek akkor kell.
Mit jelent jelen esetben a kapacitás? Valójában 3, egymással szoros kapcsolatban álló, mégis független dolgot:
- Processzor (CPU)
- Memória
- Tárhely
Most lépjünk túl a fenti gondolaton, és képzeljünk el egy céget, aminek az egyik profilja a felhőszolgáltatás. (Az Amazon maga is egy ilyen cég.) Így könnyebb elképzelni és magyarázni, és ez áll közelebb a valósághoz. Tehát egy ilyen cég beállít egy csomó szervert, adott össz CPU-val, memóriával és tárhellyel. A vevők pedig számos módon hazsnálhatják a szolgáltatást:
- Vannak, akik számításigényes feladatokat szeretnének végrehajtani, ők sok CPU-t fognak igényelni, és kevesebb memóriát ill. tárhelyet.
- Vannak, akik memóriaigényes feladatokat hajtanának végre, akiknek kevesebb CPU-ra ill. tárhelyre van szükségük.
- Olyanok is vannak, akiknek elsősorban (vagy kizárólag) tárhelyre van szükségük.
- Vannak olyanok is, akiknek mindháromra szükségük van, de időszakosan: amikor szükségük van rá (mert pl. megnőtt a forgalom, és a nagyobb haszonból ki tudják fizetni a plusz költségeket), akkor vesznek, majd visszaadják, ha már nem kell nekik. Ebben a logikában tehát az online könyvesboltok decemberben fognak több kapacitást igényelni, a kerékpárboltok tavasszal, a választás honlapjának pedig a szavazás éjszakáján kell egy pár óráig tartó kiugró kapacitást vásárolnia.
- Olyanok is vannak, akik egy fix méretű, kezdetben kisebb, de a vállalkozással együtt növekvő mértékű kapacitást vásárolnak.
A felhőnek számos továbbgondolása van. Talán az egyik legérdekesebb a Software as a Service. Megfigyelhető, hogy a felhasználók nagy hányada ugyanarra a néhány dologra használják a felhőt, pl. adatbázist üzemeltetnek benne. Ahelyett, hogy mindenki maga feltelepítené a maga adatbázisát, és külön-külön karbantartaná, azaz végrehajtaná tulajdonképpen ugyanazt a feladatot, a felhőszolgáltató maga ad lehetőséget arra, hogy a vevő nem közvetlenül CPU-t, memóriát és tárhelyet vásárol, hanem adatbázis szervert, ami mögött a felsorolt hardvereken túl ott van a központi karbantartás is.
A felhő szolgáltatások ára igen drága, az igények növekedésével a havi költség akár több tízezer Euróra növekedhet, ami magánszemélyek számára megfizethetetlen, de felesleges is. Magánszemélyek számára bizonyos tárhely szolgáltatások elérhetőek, bizonyos mértékig akár ingyen; erről még lesz szó.
Azt gondolom, hogy ennyit érdemes tudni a témáról annak is, aki nem IT szakember. A téma iránt érdeklődőknek ajánlom figyelmébe az oldalamon található Big Data leírást.
De mibű?
A semmiből lesznek szinte pillanatok alatt multimilliárdosok (dollárban kifejezve) vállalkozók, akik egy-egy jó ötlettel úgymond megcsinálják a szerencséjüket. Lássunk pár példát:
- Bill Gates (Microsoft): az elmúlt évtizedekben a legtöbb esetben elnyerte a világ leggazdagabb embere címet. Vagyonát az Microsoft operációs rendszer megalkotásával alapozta meg, ma viszont már a Microsoft is a bevételének zömét netes tevékenységből szerzi.
- Larry Page és Sergey Brin (Google): a Google kereső szinte egyből kiszorította az összes riválisát. Azóta a netes szolgáltatások egyéb területein is megvetették a lábukat.
- Mark Zuckerberg (Facebook): milliárdok virtuális élete került az általa megalkotott platformra, és etette ez őt a világ egyik leggazdagabb emberévé.
- Steve Jobs (Apple): az Apple termékek birtoklása egyfajta státusszimbólumnak számít; pl. egekben az iPhone ára, mégis veszik, mint a cukrot. Talán nem véletlenül.
- Jeff Bezos (Amazon): a web szolgáltatások megalkotása a világ egyik leggazdagabb emberévé tette.
- Satoshi Nakamoto (álnév; BitCoin): talán ő a leggazdagabb olyan ember, aki incognitóban él; nem lehet tudni, hogy ki ő.
Magyar gyökerű startup cégek fejlesztői is értek el magyar szemmel nézve mesés vagyont úgy, hogy ehhez egyetlen fillér (előre vastagon lezsírozott) állami közbeszerzést sem nyertek:
- Árvai Péter, Somlai-Fischer Ádám és Halácsy Péter (Prezi): közülük Árvai Péter folytat közéleti tevékenységet.
- Anka Márton (LogMeIn): a ma már ízig-vérig amerikai cégről van szó, de az alapítója magyar.
Emberi ésszel tehát nehezen felfogható pénzeket lehet keresni. A listát hosszasan lehetne sorolni.
A szerverek üzemeltetése szintén pénzbe kerül; meglepően sokba. Azok fejlesztése és karbantartása pedig még többe kerül. EZt valakinek ki kell fizetnie, és ezek általában mi vagyunk. Mi viszont úgy tapasztaljuk, hogy a tartalmat ingyen kapjuk. Lássuk, miből élnek a weboldalt üzemeltetők! Én az alábbi kategóriákba sorolom őket:
- Ténylegesen ingyenes tartalom: a weboldalt létrehozó ember vagy szervezet állja a költségeket, valójában bukik a dolgon, bevételt nem generál az oldal. Az idealista énünk azt gondolja, hogy az egész net ilyen; a valóságban nagyon kevés ilyen oldal van. Ennek speciális esete az, amikor a tartalom ingyenes, de az oldal önkéntes támogatás formájában pénzt kér a felhasználóktól; a Wikipédia pl. ilyen. Az én weboldalam is a ténylegesen ingyenes tartalom kategóriába esik: mögötte egy olyan szolgáltatás van, ami adott tárhelyig ingyenes, az oldalt szabadidőmben szerkesztem, és kétévente 2000 Ft-ot fizetek a faragocsaba.hu domainnévért.
- Mi magunk explicit fizetünk a tartalomért: akár lehetne ez az alapértelmezett, és kezdhettük volna ezzel. Ha fizetünk az almáért, az autószerelésért vagy a telefonálásért, akkor miért ne fizethetnénk az internetes tartalomért is? (Ez nem összetévesztendő az internetszolgáltatónak fizetendő díjjal.) Vannak oldalak, amelyek valóban ezen az elven működnek, ilyen pl. a NetFlix. De alapvetően nem szeretjük a fizetős oldalakat, mert szinte mindennek van inygenes párja, másrészt technikailag nehézkes a fizetés folyamata, meg nem is igazán megbízható.
- A cég szolgáltatást közvetít: így implicit fizetünk. Formálisan szinte mindig az eladó fizeti a jutalékot, sohasem a vevő. Az eladónak általában megéri használni az oldalt, mert ha sok potenciális vevőt ér el, akkor könnyebben el tudja adni az áruját vagy szolgáltatását. Végeredményben persze a vevő fizet, mivel az eladó árképzése olyan, hogy figyelembe veszi ezt a költséget is. Ide sorolhatóak azok az oldalak, ahol konkrétan vásárolni tudunk, vagy valamilyen szolgáltatást igénybe venni, pl. ingatlant bérelni.
- Az állam fizeti: ezt is mi magunk fizetjük ki a befizetett adónkkal. A probléma ezzel sokszor az, hogy nagyon hatékonytalan: sokszor alig látogatott oldalakért fizetünk a közös kasszából irtózatosan sok pénzt. A netnek egyébként egy igen jelentős hányada tartozik ebbe a kategóriába, legalábbis implicit módon, gondoljunk csak az állami támogatást kapó egyetemek honlapjaira.
- Az alap verzió ingyenes, az extra fizetős: az ingyenes tartalom tehát a fizetős tartalom reklámjaként, "termékkóstolóként" is felfogható. Ennek speciális esete az, ami magánszemélyek számára ingyenes, a cégeknek pedig fizetős. Mivel az alkalmazottak azt a programot ismerik, a cégeknek jobban megérni azt megvenni, mint egy másik hasonlót, és betaníttatni cég költségen a munkatársakat. Persze a cégek számára ez kiadás, és figyelembe veszik az árképzésük során. Igen sok oldal tartozik ebbe a kategóriába.
- A cégnek van egy nettől független alaptevékenysége: ez esetben kapcsolattartási céllal hozhatnak létre weboldalt. A kattintható netes reklámjaikat általában erre az oldalra irányítják. Sok esetben kiegészítik az alaptevékenységüket netes formákkal. Ezeknek az oldalaknak a költségét akkor fizetjük ki, amikor igénybe vesszük annak a cégnek az alap tevékenységét, és azért fizetünk.
- Reklámok: valójában ez a leggyakoribb. Az oldalakon reklámok jelennek meg. A hirdetők általában megjelenésenként és/vagy kattintásonként fizetnek. A rólunk kialakuló profil optimalizálja a nekünk szánt reklámokat, megnövelve ezzel a vásárlás esélyét.
- Mi magunk vagyunk az áru: bármennyire is furcsán hangzik, ilyen is van, egyre több. Itt általában valamiféle regisztrációra szükség van, és sok esetben az e-mail címen kívül sok személyes adatot meg kell adnunk. Az apró betűs részben általában ott szerepel, hogy ezekből az adatokból adatbázis készül, amit eladhat a cég, számára ebből keletkezik a bevétel, a vevő pedig reklámokat stb. küld az adatbázisban szereplő embereknek.