2003-2023: Lược sử về Dữ liệu lớn

Ngày nay, AI đã xâm nhập vào hầu hết các ngành khoa học. Trong kinh doanh người ta áp dụng BI, trong tài chính có Deep learning in Finance, v.v… Và tất cả đều phải dựa trên dữ liệu đầu vào khổng lồ, Big Data (Dữ liệu lớn). Nên việc hiểu biết khái lược lịch sử về dữ liệu lớn của các cư dân tài chính, thiết nghĩ cũng là điều cần thiết.

Bài này được biên dịch từ: 2003-2023: A brief history of Big Data. Do bài bào khá dài nên sẽ được phân ra nhiều kỳ.

Người biên dịch: TS. Huỳnh Đức Trường.

……………….

Hãy thắt dây an toàn và bắt đầu chuyến hành trình xuyên thời gian vào sâu 20 năm trước, khi câu chuyện của chúng ta bắt đầu vào năm 2003 tại một thị trấn nhỏ phía nam San Francisco…

……..

Dữ liệu lớn và đặc biệt là hệ sinh thái Hadoop đã xuất hiện cách đây hơn 15 năm một chút và ngày nay đã phát triển theo những cách mà ít ai có thể đoán được vào thời điểm đó.

Khi mới xuất hiện, Hadoop mã nguồn mở đã ngay lập tức trở thành một công cụ phổ biến để lưu trữ và quản lý hàng petabyte dữ liệu. Một hệ sinh thái rộng lớn và sôi động với hàng trăm dự án đã hình thành xung quanh nó và nó vẫn được nhiều công ty lớn sử dụng, ngay cả trong bối cảnh nền tảng đám mây hiện đại. Trong bài viết hiện tại, tôi sẽ mô tả tất cả 15 năm ^[¹^] quá trình phát triển của hệ sinh thái Hadoop, nói về sự phát triển của nó trong thập kỷ qua và những bước phát triển mới nhất của lĩnh vực dữ liệu lớn trong những năm gần đây.

2003-2006: khởi đầu

Mọi chuyện bắt đầu vào những năm đầu của thiên niên kỷ mới, khi một công ty khởi nghiệp đang phát triển ở Mountain View có tên là Google đang cố gắng lập chỉ mục cho toàn bộ Internet đang phát triển. Họ phải đối mặt với hai thách thức lớn mà trước đây chưa ai giải quyết được:

Làm cách nào để đặt hàng trăm terabyte dữ liệu trên hàng nghìn đĩa được cài đặt trong hơn một nghìn máy mà không có thời gian ngừng hoạt động, không mất thông tin và không có sẵn vĩnh viễn?
Làm cách nào bạn có thể song song hóa tính toán theo cách hiệu quả và khả năng chịu lỗi để xử lý tất cả dữ liệu này trên tất cả các máy?

Để hiểu rõ hơn về mức độ phức tạp của một công việc như vậy, hãy tưởng tượng một cụm có hàng nghìn máy móc, với ít nhất một máy luôn được bảo trì do hỏng hóc ^[ 2 ] .

Từ năm 2003 đến 2006, Google đã đưa ra ba tài liệu nghiên cứu giải thích cấu trúc bên trong của dữ liệu. Những bài báo này đã thay đổi ngành Dữ liệu lớn mãi mãi. Cuốn đầu tiên được xuất bản vào năm 2003 với tiêu đề “Hệ thống tệp của Google”. Lần thứ hai tiếp theo vào năm 2004 với “MapReduce: Xử lý dữ liệu đơn giản hóa trên các cụm lớn”. Theo Google Scholar, nó đã được trích dẫn hơn 21.000 lần. Bài báo thứ ba được xuất bản vào năm 2006 với tiêu đề Bigtable: Hệ thống lưu trữ phân tán cho dữ liệu có cấu trúc.

Mặc dù những tác phẩm này có tác động quyết định đến sự xuất hiện của Hadoop, nhưng bản thân Google không liên quan gì đến nó vì nó giữ mã nguồn của mình ở chế độ riêng tư. Nhưng có một câu chuyện rất thú vị đằng sau tất cả, và nếu bạn chưa từng nghe nói về Jeff Dean và Sanjay Gemawat, bạn chắc chắn nên đọc bài báo này từ New Yorker.

Trong khi đó, người sáng lập Hadoop, Yahoo! nhân viên Doug Cutting, người đã phát triển Apache Lucene (thư viện tìm kiếm bên dưới Apache Solr và ElasticSearch), đang làm việc trên một mô-đun tìm kiếm phân tán cao có tên là Apache Nutch. Giống như Google, dự án này cần lưu trữ phân tán và sức mạnh tính toán nghiêm túc để đạt được quy mô rộng rãi. Sau khi đọc công việc của Google trên Google File System và MapReduce, Doug nhận ra sự sai lầm trong cách tiếp cận hiện tại của mình và kiến trúc được mô tả trong các bài báo đó đã truyền cảm hứng cho anh ấy tạo ra một dự án con gái vào năm 2005 cho Nutch, mà anh ấy đặt tên là Hadoop theo tên đồ chơi của con trai mình (con voi màu vàng, còn gọi là con voi trò chơi).

Dự án này bắt đầu với hai thành phần chính: Hệ thống tệp phân tán Hadoop (HDFS) và triển khai khung MapReduce. Không giống như Google, Yahoo! đã quyết định mở nguồn dự án trong Quỹ Phần mềm Apache. Bằng cách đó, họ đã mời tất cả các công ty hàng đầu khác sử dụng nó và tham gia vào quá trình phát triển của nó nhằm thu hẹp khoảng cách công nghệ với các người láng giềng (Yahoo! có trụ sở tại Sunnyvale gần Mountain View). Như chúng ta sẽ thấy tiếp theo, vài năm tới đã vượt quá mọi mong đợi. Đương nhiên, Google cũng đã đạt được rất nhiều trong thời gian này.

2007-2008: những người đồng sở hữu và người dùng đầu tiên của Hadoop

Chẳng mấy chốc, các công ty khác bắt đầu sử dụng Hadoop và gặp phải các vấn đề tương tự khi xử lý lượng lớn dữ liệu. Vào thời điểm đó, điều này có nghĩa là một cam kết rất lớn, vì họ cần tự tổ chức và quản lý các cụm máy và việc viết một tác vụ MapReduce rõ ràng không phải là một việc dễ dàng. Nỗ lực của Yahoo! nhằm giảm bớt sự phức tạp của việc lập trình các tác vụ này xuất hiện dưới dạng Apache Pig, một công cụ ETL có khả năng dịch ngôn ngữ riêng của Pig Latin thành các bước MapReduce. Tuy nhiên, những người khác đã sớm tham gia vào sự phát triển của hệ sinh thái mới này.

Năm 2007, công ty trẻ, đang phát triển nhanh chóng Facebook, do Mark Zuckerberg, 23 tuổi, lãnh đạo, đã phát hành hai dự án mới cho công chúng theo giấy phép Apache: Apache Hive và một năm sau, Apache Cassandra. Apache Hive là một khung có khả năng chuyển đổi các truy vấn SQL thành các tác vụ MapReduce cho Hadoop. Trong khi đó, Cassandra là một kho lưu trữ cột mở rộng được thiết kế để truy cập và cập nhật nội dung phân tán quy mô lớn. Kho lưu trữ này không yêu cầu Hadoop cho hoạt động của nó nhưng nhanh chóng trở thành một phần của hệ sinh thái này khi các trình kết nối cho MapReduce được tạo.

Đồng thời, Powerset, một công ty công cụ tìm kiếm ít được biết đến hơn, được truyền cảm hứng từ công việc của Google trên Bigtable và đã phát triển Apache Hbase, một kho lưu trữ dạng cột khác dựa trên HDFS. Ngay sau đó, Powerset đã được tiếp quản bởi Microsoft, công ty đã khởi động một dự án mới dựa trên nó, được gọi là Bing.

Trong số những thứ khác, việc áp dụng nhanh chóng Hadoop chịu ảnh hưởng quyết định bởi một công ty khác, Amazon. Bằng cách khởi chạy Amazon Web Services, nền tảng đám mây theo yêu cầu đầu tiên và nhanh chóng bổ sung hỗ trợ cho MapReduce thông qua MapReduce đàn hồi, nó cho phép các công ty khởi nghiệp lưu trữ dữ liệu của họ một cách thuận tiện trong S3, một hệ thống tệp phân tán, đồng thời triển khai và chạy các tác vụ MapReduce trong đó, loại bỏ loay hoay không cần thiết với cụm Hadoop.

…………

Nguồn: https://qualified.one/blog/data_science/brief-history-of-big-data/

Biên dịch: TS. HUỲNH ĐỨC TRƯỜNG

THFinanceManagement

2003-2023: Lược sử về Dữ liệu lớn

Leave a comment Cancel reply

2003-2023: Lược sử về Dữ liệu lớn

Share this:

Related

Leave a comment Cancel reply