Internet Archive: Οι τρελοί τύποι που αρχειοθετούν τα πάντα
«Ό,τι ανεβάζουμε στο διαδίκτυο μένει εκεί για πάντα» ακούμε συχνά ως προειδοποίηση προκειμένου να είμαστε προσεκτικοί
«Ό,τι ανεβάζουμε στο διαδίκτυο μένει εκεί για πάντα» ακούμε συχνά ως προειδοποίηση προκειμένου να είμαστε προσεκτικοί. Μεγάλη ευθύνη για αυτό το γεγονός έχει το Internet Archive. Το μακρινό 1996, όταν ακόμα το διαδίκτυο ήταν ένα παιχνίδι στα εργαστήρια των πανεπιστημίων, στο Σαν Φρανσίσκο προσπαθούσαν να λύσουν ένα δύσκολο πρόβλημα. Το ίντερνετ είχε μόλις δημιουργηθεί αλλά ήταν πολύ ζωντανό. Ιστοσελίδες ανέβαιναν, άλλαζαν και κατέβαιναν με γρήγορους ρυθμούς. Το διαδίκτυο σήμερα είναι τεράστιο και αλλάζει κάθε με καταιγιστικό ρυθμό. Υπάρχουν 1,8 δισεκατομμύρια ιστοσελίδες (τα 644 εκατομμύρια είναι ενεργές) και διπλασιάζεται σε μέγεθος κάθε 2 με 5 χρόνια. Η μέση ιστοσελίδα διαρκεί μόλις 100 ημέρες και τα περισσότερα άρθρα ξεχνιούνται 5 λεπτά μετά τη δημοσίευση. Χωρίς τη δημιουργία αντιγράφων όλα αυτά θα χάνονταν στο χρόνο.
Κάτι έπρεπε να γίνει για να μην χάνεται όλη αυτή η πληροφορία. Για αυτό τον σκοπό λοιπόν ο οραματιστής Brewster Kahle ίδρυσε το το 1996 το Internet Archive, μια μη κερδοσκοπική ψηφιακή βιβλιοθήκη. Ο σκοπός του Internet Archive ήταν να αρχειοθετεί οτιδήποτε έμπαινε στο διαδίκτυο προκειμένου να μη χάνεται ποτέ τίποτα. Στην αρχή χρησιμοποιούσε το λογισμικό του για να δημιουργεί αντίγραφα του διαδικτύου στη σοφίτα του. Το όραμα του όμως ήταν να προσφέρει «καθολική πρόσβαση σε όλες τις γνώσεις», να ξεπεράσει τη βιβλιοθήκη της Αλεξάνδρειας, τη μεγαλύτερη και σημαντικότερη βιβλιοθήκη της αρχαιότητας. Για περίπου 6 χρόνια υπομονετικά αρχειοθέτησε περισσότερες από 10 δισεκατομμύρια ιστοσελίδες αλλά το κοινό δεν είχε πρόσβαση σε αυτό τον θησαυρό. Αυτό μέχρι το 2001 όταν έκανε το ντεμπούτο του το Wayback Machine, ένα εργαλείο που επιτρέπει σε όλους μας να βλέπουμε το πολύτιμο αρχείο.
Σήμερα το Wayback Machine φιλοξενεί 349 δισεκατομμύρια ιστοσελίδες και η «μαμά» του, το Internet Archive, είναι η μεγαλύτερη βιβλιοθήκη του κόσμου. Η συλλογή του Internet Archive, δεν καλύπτει μόνο τον παγκόσμιο ιστό αλλά έχει και βιβλία, ηχογραφήσεις, βίντεο, εικόνες και λογισμικό. Το μέγεθος του ανέρχεται σε περισσότερα από 40 petabytes (αυτό είναι 40 εκατομμύρια gigabytes δεδομένων) και το Wayback Machine με τις ιστοσελίδες αποτελεί πάνω από το 60%. Αυτό αντιστοιχεί σε 80 εκατομμύρια ερμάρια 4 συρταριών γεμάτα χαρτί ή σε λίγο λιγότερο από το σύνολο όλων των γραπτών της ανθρωπότητας (σε όλες τις γλώσσες) από την αρχή της καταγεγραμμένης ιστορίας μέχρι σήμερα. Η Βιβλιοθήκη του Κογκρέσου των ΗΠΑ περιέχει περίπου 28 terabytes κειμένου - λιγότερο από το 0,1% του Internet Archive.
Και πως δουλεύει όλο αυτό το καταπληκτικό σύστημα αρχειοθέτησης; Μια στρατιά από 7.000 bots (προγράμματα που εκτελούν αυτοματοποιημένες εργασίες) σκανάρουν το διαδίκτυο δημιουργώντας αντίγραφα εκατομμυρίων ιστοσελίδων. Αυτά τα αντίγραφα, που ονομάζονται «στιγμιότυπα», δημιουργούνται με διαφορετικές συχνότητες (μερικές φορές πολλές φορές την ημέρα, άλλες φορές μία φορά κάθε λίγους μήνες ανάλογα με το πόσο συχνά αλλάζει το κάθε site) και μας δίνουν την εικόνα που έχει κάθε ιστότοπος σε μια συγκεκριμένη χρονική στιγμή. Για παράδειγμα, αν βάλουμε το site της AthensVoice στο Wayback Machine θα δούμε ότι έχει αρχειοθετηθεί περίπου 1.800 φορές από το 2003 μέχρι σήμερα. Αυτό δεν σημαίνει ότι έχει αλλάξει μόνο τόσες φορές αλλά ότι τόσες φορές επιλέχθηκε από τα ρομποτάκια του Internet Archive για να δημιουργηθεί στιγμιότυπο.
Κάτι που μας πάει στο επόμενο ερώτημα. Πως επιλέγονται αυτά που θα αρχειοθετηθούν; Δημιουργούμε αντίγραφα για ένα μεγάλο μέρος του διαδικτύου αλλά όχι για το σύνολο του, λένε οι υπεύθυνοι του Internet Archive. Απαιτεί συνεχή προσπάθεια για να βρεις ποια κομμάτια του internet είναι τα πιο χρήσιμα και να δώσεις την αντίστοιχη προτεραιότητα. Και επειδή πίσω από όλα είναι οι άνθρωποι, ο τεχνικός πίσω από τα bot πρέπει να αποφασίσει από πού ξεκινήσουν και πόσο βαθιά θα πηγαίνουν όταν δημιουργούν τα αντίγραφα. Είναι φανερό ότι όλη αυτή η διαδικασία απαιτεί τεράστιους τεχνικούς και ανθρώπινους πόρους. Τα χρήματα για όλα αυτά προέρχονται από επιχορηγήσεις, δωρεές αλλά και από τη συνδρομητική υπηρεσία αρχειοθέτησης Archive-It.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
«Ξεκλειδώνει το μεγάλο μυστικό της φύσης», λένε ειδικοί
Πώς κατάφεραν να το αποτυπώσουν οι αστρονόμοι
«Ένα είδος Google Maps για την κυτταρική βιολογία»
Συνέντευξη με τη Δρ. Ζωή Αικατερινίδη C.E.O. Software Competitiveness International
Επανέρχεται το ζήτημα της δεσπόζουσας θέσης του κολοσσού της τεχνολογίας - Τι σχεδιάζει ο Ντόναλντ Τραμπ
Τι σημασία έχει να αναπτυχθεί η ΤΝ, το διαδίκτυο ή η γενετική μηχανική αν δεν οδηγήσουν στην ευημερία των ανθρώπων και των άλλων έμβιων όντων;
Ο Μαρίνος Σιαπάνης, CEO & Co-Founder της κορυφαίας εταιρείας iGaming, μας εξηγεί τα σχέδια της επόμενης μέρας
Μήπως ήρθε η ώρα να μάθετε βασικά Κλίνγκον, ίσα για να συνεννοείστε στο εστιατόριο;
Πώς μπορεί να χρησιμοποιηθεί η δυνατότητα αυτή από απατεώνες
Το μεγαλύτερο συνέδριο για την Παραγωγική Τεχνητή Νοημοσύνη επιστρέφει στις 18 Νοεμβρίου 2024 στο ΚΠΙΣΝ
Το επόμενο βήμα στη σύγχρονη εκπαίδευση
Το Amazon Haul υπηρετεί ακριβώς το ίδιο μοτίβο με τους ανταγωνιστές του
Βροχή οι 70+ σε κατάστημα τεχνολογίας. Κουνούσαν με απελπισία τις έξυπνες συσκευές που τους έκαναν να νιώθουν βλάκες
Το viral μήνυμα της καμπάνιας της Telekom που μοιράστηκε η COSMOTE με στόχο την ευαισθητοποίηση σχετικά με τις online δημοσιεύσεις παιδικών φωτογραφιών
Το πορτρέτο του μαθηματικού Άλαν Τούρινγκ δημιουργήθηκε από το Ai-Da, ένα από τα πιο προηγμένα ρομπότ στον κόσμο
Για τη Τεχνητή Νοημοσύνη γίνεται λόγος ήδη από το 1950
Το διαστημικό σκάφος απέχει περίπου 24 δισεκατομμύρια χιλιόμετρα από τη Γη
Ευχάριστα τα νέα από την αμερικάνικη διαστημική υπηρεσία
Όλος ο χρόνος του σύμπαντος δεν αρκεί σε έναν χιμπατζή για να γράψει τυχαία έργο του Σαίξπηρ
Μια συζήτηση για τη σημασία του Τηλεσκοπίου Ορίζοντα Γεγονότων και το ποια θα μπορούσε να είναι η μελλοντική κατεύθυνση της Αστρονομίας
Έχετε δει 20 από 200 άρθρα.