Nhân
loại hiện đang sản sinh ra 2,5 nhân 10 mũ 30 tỉ bytes dữ liệu mỗi ngày ,
vượt rất xa so với việc sử dụng các máy bàn thông thường mỗi ngày. Việc
khai thác lượng dữ liệu khổng lồ này để lọc ra được những dữ liệu hữu
dụng quả là một thử thách lớn nhất mà người ta gặp phải trong xã hội
hiện đại. Nhưng thế hệ các công cụ phân tích dữ liệu mới đang giúp chúng
ta kiểm soát hiện tượng này tốt hơn và thuật ngữ Big Data ra đời để chỉ
về hiện tượng đó.
Big Data là một thuật ngữ bao quát để chỉ về việc thao tác trên những bộ dữ liệu cực kì lớn
Việc
thu thập một lượng lớn dữ liệu không quá khó. Từ những năm 1980, khả
năng lưu trữ dữ liệu trên mỗi đầu người của toàn thế giới đã tăng lên
gấp đôi sau mỗi 40 tháng. Giờ dữ liệu đã có thể đến từ nhiều nguồn khác
nhau mà bạn có thể tưởng tượng được như các thông tin xã hội đa phương
tiện và các trang web cho đến thông tin về thời tiết, các file đã phương
tiện số hóa, các hóa đơn mua bán online và vô cùng nhiều các nguồn
khác. Nhưng thử thách thật sự là chúng ta sẽ xử lý nó như thế nào vì chúng không thể được xử lý và phân tích hiệu quả nhờ các phần mềm thương mại thông thường.
Twitter
tạo ra khoảng 12 Terabytes dữ liệu mỗi ngày , trong khi The Large
Hadron Collider (LHC) sinh ra 13 Petabytes tất cả trong riêng năm 2010.
Ngay cả Wal-mart cũng xử lí hơn 1 triệu giao dịch của khách hàng mỗi
giờ. Phân tích dòng dữ liệu không ngừng này và nhanh chóng đưa ra các xu
hướng phát triển, theo dõi ô hình nguyên tử Higg-Boson và xác đinh
chính xác các lỗi có thể xảy ra trong quá trình truyền tải cần nhiều sức
mạnh tính toán hơn những gì mà MS Access có thể làm được.
Thay
vào đó, các bộ phần mềm chuyên dụng như Apache Hadoop Big Data Platform
có thể chạy so song trên hàng trăm thậm chí hàng nghìn máy chủ mới có
thể giải quyết được vấn đề. Chúng được người ta công nhận vì khả năng
thu thập và xử lí song song một lượng lớn dữ liệu. Các máy tính khổng lồ
làm việc hàng giờ liên tục để quản lý lượng dữ liệu này khiến người ta
không hề biết được rằng có một sự bùng nổ thông tin đang diễn ra.
No comments:
Post a Comment