Bảo tồn tin tức trực tuyến trong một trang web phù du: Nhìn vào bốn tháng của báo chí kỹ thuật số toàn cầu

Khoa Học/Công Nghệ

Khi báo chí trực tuyến đã nhanh chóng tăng lên một định dạng phân phối thống trị trong một phần tư thế kỷ qua, bản chất phù du của nó có ý nghĩa gì đối với việc lưu trữ và lưu giữ hồ sơ xã hội của chúng ta? Nhìn lại bốn tháng phủ sóng tin tức trực tuyến toàn cầu đưa ra gợi ý.

Hình ảnh của Getty.

Từ buổi bình minh của báo in hiện đại cho đến đầu kỷ nguyên web, các tờ báo đại diện cho một phương tiện lưu trữ. Sau khi được đưa vào in, một bài báo là bất biến và có thể được tham chiếu một cách an toàn mà không sợ rằng vài ngày sau nó sẽ nói điều gì đó rất khác. Khi các thư viện và các tổ chức khác được thu thập và lưu trữ báo chí, nội dung của chúng cũng được bảo quản an toàn để tiếp tục truy cập bởi các thế hệ tương lai. Nhiều thư viện đều giữ các bản sao độc lập của một bài viết, đảm bảo rằng ngay cả khi một số bản sao bị mất hoặc sửa đổi, những thư viện khác vẫn tồn tại. Ngược lại, trong thời đại web, báo chí đã được chuyển đổi chủ yếu thành blog trực tiếp, với các bài viết bán buôn được viết lại hoặc đơn giản là bị xóa. Khi báo chí trực tuyến đã nhanh chóng tăng lên một định dạng phân phối thống trị trong một phần tư thế kỷ qua, bản chất phù du của nó có ý nghĩa gì đối với việc lưu trữ và lưu giữ hồ sơ xã hội của chúng ta?

Vào mùa thu 2014, dữ liệu mở Dự án GDELT của tôi đã tham gia chương trình Internet No More 404 404 của Lưu trữ Internet, cung cấp cho Lưu trữ danh sách trực tiếp các URL của tất cả các bài báo trực tuyến mà nó theo dõi trên toàn thế giới, được cập nhật 15 phút một lần. Một năm rưỡi sau, Lưu trữ đã thu thập dữ liệu và lưu trữ một phần lớn các URL đó mỗi ngày, tạo ra sáng kiến ​​lớn nhất để lưu trữ báo chí trực tuyến của thế giới trên tất cả các quốc gia và 65 ngôn ngữ. Vào cuối năm 2017, sự hợp tác này đã lưu trữ hơn 5,4 tỷ URL riêng biệt với tổng số 221 terabyte báo chí có nguy cơ vĩnh viễn.

Một thử nghiệm nhỏ vào mùa thu năm 2015 cho thấy khoảng 1,5-2% tất cả các bài báo tin tức trực tuyến được theo dõi bởi GDELT đã trả về lỗi 404 khi được tải lại hai tuần sau đó. Chỉ trong sáu tháng vào năm 2015, ước tính 7-14 triệu bài báo được theo dõi bởi GDELT đã bị mất mãi mãi, chiếm tới gấp đôi tổng sản lượng của Thời báo New York trong hơn nửa thế kỷ.

Điều gì có thể trông giống như để đánh giá hệ thống hơn về tuổi thọ của tin tức trực tuyến, thu thập lại mỗi bài báo được theo dõi sau 24 giờ và sau một tuần? Đó là tầm nhìn đằng sau Biểu đồ khác biệt toàn cầu mở của GDELT, được ra mắt vào cuối tháng 8 năm ngoái.

Trong bốn tháng qua, nó đã thu thập được 88 triệu bài báo trực tuyến trên khắp các quốc gia và 65 ngôn ngữ. Sử dụng nền tảng BigQuery của Google, việc tóm tắt bộ dữ liệu thay đổi lớn này chỉ mất một dòng SQL và chưa đến 6 giây để định lượng ở quy mô hành tinh tuổi thọ của một bài báo tin tức trực tuyến ngày hôm nay.

Tổng cộng, 0,68% bài viết không còn truy cập được sau 24 giờ, tăng lên 1,5% sau một tuần. Chúng bao gồm các mã trả về HTTP 404, 410 và 451, nhưng không phải là hết thời gian kết nối, vì các mã này có thể là tạm thời. Tổng cộng có 2% bài viết được chuyển hướng đến một URL khác sau 24 giờ, tăng lên 2,59% trong vòng một tuần. Kết hợp, xóa và chuyển hướng ảnh hưởng đến 2,71% bài viết sau 24 giờ và 4,12% trong vòng một tuần. Tổng cộng, 63% thay đổi cấp độ URL xảy ra trong vòng 24 giờ đầu tiên của cuộc đời bài viết (42% xóa và 75% chuyển hướng).

Đối với những bài viết đã trả về nội dung hợp lệ (bao gồm các URL được chuyển hướng), 93,57% có ít nhất một thay đổi đối với HTML trang web được trả lại trong vòng 24 giờ. Sau một tuần tăng lên 95,37% bài viết.

Đây là một phát hiện đặc biệt quan trọng ở chỗ nó nhắc nhở chúng ta rằng bên dưới các bài báo tin tức văn bản mà chúng ta thấy là con người là một mê cung của HTML, JavaScript, CSS, hình ảnh, video và các nội dung phương tiện và mã khác phải được trình duyệt tải xuống và hiển thị. Ngay cả một trang tĩnh khác cũng có thể có các yếu tố động, chẳng hạn như các bài viết theo xu hướng, các phần tử chèn hay thời gian hiện tại được bao gồm dưới dạng văn bản tĩnh trong trang.

Tất cả những thay đổi này có nghĩa là các lưu trữ web truyền thống, gắn cờ một trang là đã thay đổi Trang khi bất kỳ thay đổi nào được phát hiện trong HTML của nó, sẽ gắn cờ 95% các trang đã thay đổi cho dù chính văn bản bài viết có thay đổi hay không bất kỳ thời trang. Đối với một kho lưu trữ web, hoàn toàn hợp lý và thực sự có khả năng mong muốn rằng mọi thay đổi trong HTML của trang sẽ được gắn cờ và lưu trữ, ngay cả khi đó chỉ là một JavaScript quảng cáo được nhúng thay đổi hàng ngày.

Tuy nhiên, để nghiên cứu mức độ thường xuyên thay đổi bài viết tin tức, điều quan trọng là chỉ nhìn vào những thay đổi trong chính văn bản bài viết, chứ không phải phần còn lại của trang.

Nói cách khác, kiểm tra các thay đổi trong các bài báo, cho dù sửa lỗi chính tả cơ bản, chỉnh sửa lén lút hoặc viết lại bán buôn, yêu cầu trích xuất văn bản bài viết từ phần còn lại của trang web và chỉ so sánh văn bản đó giữa các lần tìm nạp. Điều này đòi hỏi cơ sở hạ tầng trích xuất trang toàn cầu mạnh mẽ có khả năng hoạt động phổ biến trên các cửa hàng tin tức từ mọi quốc gia ở mọi ngôn ngữ và trên các cấu trúc trang từ HTML cơ bản cho đến các bố cục động phức tạp nhất.

Chỉ cần kiểm tra xem liệu tổng kiểm tra MD5 của trang HTML từ lần thu thập hiện tại có khớp với lần thu thập cuối cùng sẽ mang lại tỷ lệ thay đổi 95% hay không, hầu hết trong số đó không liên quan đến chính văn bản bài viết.

Tất nhiên, tiêu đề trang không yêu cầu thuật toán trích xuất ưa thích, chúng dễ dàng được phân tích cú pháp chỉ bằng cách xem thẻ HTML TITLE (mặc dù trong thực tế, nhiều trang chứa nhiều thẻ tiêu đề nằm rải rác trong mã HTML, bao gồm trong trường JavaScript và nhận xét, yêu cầu nhiều hơn phân tích cú pháp phức tạp).

Nhìn vào tiêu đề trang, 5,09% bài viết có thay đổi tiêu đề trang trong vòng 24 giờ, với 6,06% có thay đổi trong vòng một tuần. Tổng cộng, 80% thay đổi tiêu đề đến trong vòng 24 giờ đầu tiên.

Quay trở lại để phát hiện các thay đổi văn bản bài viết, GDELT xây dựng công việc của riêng tôi trong hơn 24 năm xây dựng các hệ thống trích xuất tài liệu để xác định và trích xuất nội dung của các bài báo từ thùng chứa trang xung quanh. Mỗi bài viết tin tức được phân tách cẩn thận với văn bản xung quanh để đảm bảo rằng phát hiện thay đổi chỉ được thực hiện trên chính bài viết đó, không phải phần còn lại của trang. Tất nhiên, không có thuật toán nào là hoàn hảo và bất kỳ sự không hoàn hảo nào trong quá trình trích xuất có thể dẫn đến các phần tử giả, tiêu đề, chân trang và quảng cáo trượt vào văn bản cơ thể và kích hoạt cảnh báo thay đổi sai, nhưng tổng thể GDELT cung cấp một chỉ số phát hiện thay đổi khá mạnh mẽ và phổ biến để đánh giá chỉ những thay đổi trong chính văn bản bài viết, thay vì trang HTML xung quanh luôn thay đổi.

Tổng cộng, 15,1% bài viết có một hoặc nhiều thay đổi trong văn bản cơ thể của họ trong vòng 24 giờ đầu tiên, tăng lên 19,52% trong vòng một tuần. Trong tất cả 81% thay đổi cơ thể đến trong 24 giờ đầu tiên.

Kết hợp, thay đổi tiêu đề và nội dung đã được tìm thấy trong 16,5% bài viết trong 24 giờ đầu tiên, tăng lên 19,52% trong vòng một tuần. Khoảng 81% thay đổi tiêu đề và nội dung đã xảy ra trong ngày đầu tiên sau khi một bài báo được xuất bản, cho thấy hầu hết các chỉnh sửa có thể là sửa lỗi chính tả, câu chuyện cập nhật trực tiếp hoặc thay đổi thực tế hoặc thực tế khi câu chuyện đạt được lực kéo và sự chú ý trong 24 giờ đầu tiên. sau khi xuất bản

Nói tóm lại, hầu hết các chuyển hướng và thay đổi tiêu đề và nội dung xảy ra trong 24 giờ đầu tiên sau khi một bài báo được xuất bản khi các biên tập viên phản ứng với cả thông tin mới nổi và phản ứng của người đọc, trong khi việc xóa thường xảy ra sau 24 giờ đầu tiên.

Kết hợp tất cả lại với nhau, ngày nay chúng ta có các công cụ để khám phá một cách có hệ thống và mạnh mẽ tính phù du của báo chí trực tuyến trên toàn cầu, lập danh mục làm thế nào hồ sơ xã hội toàn cầu của chúng ta đang thay đổi và biến mất ngay trước mắt chúng ta. Từ tai họa của việc viết lại bán buôn và chỉnh sửa lén lút đến xóa hoàn toàn, báo chí kỹ thuật số năm 2018 đã trở nên giống với việc viết blog trực tiếp hơn là nguồn gốc của một bản ghi xã hội bất tử. Rất may các dịch vụ như Lưu trữ Internet đang giúp bảo tồn báo chí thế giới cho hậu thế và đảm bảo rằng hồ sơ nhân loại chung của chúng ta vẫn còn tồn tại cho các thế hệ tương lai, thay vì mờ dần vào lỗ nhớ kỹ thuật số.

Tôi muốn cảm ơn Google vì đã sử dụng các tài nguyên Google Cloud bao gồm BigQuery và Lưu trữ Internet để tạo một kho lưu trữ công khai về lịch sử kỹ thuật số của chúng tôi.

Có thể bạn quan tâm