29/08/2013

Big data trong công nghệ đám mây

Tốc độ, khối lượng, tính đa dạng và xác thực của dữ liệu
Sam B. Siewert, Trợ lý giám đốc, Đại học Alaska Anchorage
Tóm tắt: Dữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ đám mây và cung cấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền thống và mạng xã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện. Các ứng dụng dữ liệu lớn yêu cầu kiến trúc trung tâm dữ liệu và nhiều giải pháp bao gồm các API của nền tảng đám mây để tích hợp với tìm kiếm nâng cao, các giải thuật máy học và các phân tích nâng cao như thị giác máy tính, phân tích phim ảnh và các công cụ phân tích trực quan. Bài viết này nghiên cứu cách sử dụng ngôn ngữ R và các công cụ phổ biến để phân tích dữ liệu lớn và các phương pháp để mở rộng các dịch vụ dữ liệu lớn trong các đám mây. Nó cung cấp một góc nhìn sâu sắc về một dịch vụ dữ liệu lớn cơ bản là quản lý hình ảnh số, trong đó sử dụng các yếu tố cơ bản như tìm kiếm, phân tích và máy học cho dữ liệu không có cấu trúc.

Bài viết này tập trung vào những ứng dụng sử dụng dữ liệu lớn, đồng thời giải thích những khái niệm cơ bản đằng sau việc phân tích dữ liệu lớn và làm cách nào kết hợp với những ứng dụng phân tích thị trường và các kỹ thuật xử lý song song như thị giác máy tính (CV - Computer Vision) cũng như máy học, tất cả sẽ được đề cập đến trong mục 3 của loạt bài về "Cloud scaling (Mở rộng đám mây)".
Sự khác biệt giữa phân tích dữ liệu lớn với phân tích video là về sự đa dạng của dữ liệu xử lý, và khi so sánh các công cụ hỗ trợ tìm kiếm và phân tích, ta có thể thấy rằng sử dụng các phương pháp khai phá dữ liệu hay MapReduce chẳng những có thể phức tạp hơn mà còn mất thời gian lâu hơn rất nhiều so với việc dùng Google BigQuery. Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén và đẩy nhanh quá trình tìm kiếm cho các bộ dữ liệu lớn và phi cấu trúc. Thực tế, trong bài "An Inside Look at Google BigQuery (Tìm hiểu sâu về Google BigQuery)" (xem phần Tài nguyên), Google giải thích, trong 10 giây BigQuery có thể tìm kiếm một đoạn chuỗi trong một bảng dữ liệu có khoảng 35 tỷ dòng và 20TB. Các công cụ dùng chức năng MapReduce mất nhiều thời gian hơn để xử lý nhưng đem lại kết quả tốt hơn.
Bất cứ ai có một tài khoản Google đều có thể sử dụng BigQuery. Ý tưởng của nó nhanh hơn các phương pháp tìm kiếm dữ liệu lớn khác, điển hình là khi tôi tải hình ảnh và đưa ảnh lên trang Google Images. Bạn sẽ thấy được tất cả các trang có hình ảnh của tôi (từ IBM, Đại học Colorado Boulder, v.v..), trong đó có thể có những sai sót nhỏ. Tôi sử dụng ví dụ này chủ yếu là để đảm bảo hình ảnh tôi đã tải về là những hình ảnh phù hợp và cho phép tái sử dụng nhiều lần. Cùng với các ví dụ khác tôi đã khám phá, qua đó thấy được ý nghĩa của dữ liệu lớn là chúng ta đang thực hiện việc "mò kim đáy bể" dễ dàng hơn trong mớ hỗn độn của dữ liệu phi cấu trúc.
Định nghĩa dữ liệu lớn
Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân tích dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thể được truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm khác. Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ khi nó có thể tương quan với dữ liệu có cấu trúc.
Dữ liệu lớn cũng có những nguồn mới, như trong máy tính (vd: các file log nhật ký hay mạng cảm biến), trong thiết bị di động (video, hình ảnh, tin nhắn), và trong các thiết bị máy móc kết nối với nhau (vd như xe, máy bay hoặc các thiết bị giám sát từ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời. Có nột cách để làm được việc này là dựa vào đặc tính volume (khối lượng). IBM ước lượng, có 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày (xem phần Tài nguyên). Đặc điểm tiếp theo là velocity (tốc độ), nơi có tỷ lệ dữ liệu được gia tăng bởi vì băng thông mạng — điển hình như tỷ lệ gigabit ngày nay (gigE, 10G, 40G, 100G) được so sánh với tỷ lệ megabit. Một đặc điểm khác là variety (tính đa dạng), bao gồm nhiều kiểu dữ liệu phi cấu trúc, như dòng hình ảnh kỹ thuật số (digital video streams), dữ liệu cảm biến, cũng như các file log nhật ký. Cuối cùng là veracity (tính xác thực) của dữ liệu, hay có bao nhiêu dữ liệu tin cậy khi những quyết định quan trọng cần được thực hiện trên số lượng lớn dữ liệu thu thập ở tỷ lệ cao. Đơn giản chỉ cần biết dữ liệu đó là không giả mạo, không bị hỏng, đến từ một nguồn kỳ vọng là khó khăn — nó có thể đến từ 1000 máy quay an ninh, mỗi ngày có thể có 1000 khung hình trên 1 giờ. Vậy, chúng ta cùng phát thảo một vài khía cạnh của dữ liệu lớn, những ứng dụng và những hệ thống để hiểu tốt hơn về chúng.

Dữ liệu lớn đến từ đâu?

Dữ liệu lớn đã được đề cập đến chủ yếu vì sự tiến bộ của thiết bị di động, bao gồm video kỹ thuật số, hình ảnh, âm thanh, thư điện tử tiên tiến và những tính năng văn bản. Những người dùng đang lựa chọn dữ liệu trong số đó đã không bao giờ nhìn thấy trong thập kỷ trước; hơn nữa, những ứng dụng mới được Google Translate cung cấp những tính năng máy chủ dữ liệu lớn — dịch những ngôn ngữ tự nhiên cho người dùng nói hoặc đánh trong thiết bị di động. IBM nhận thấy dữ liệu lớn được dùng trên di động lần đầu trong Global Technology Outlook vào năm 2013 (xem phần Tài nguyên) và đặc trưng của dữ liệu lớn bởi volume (khối lượng), variety (tính đa dạng), velocity (tốc độ), và veracity (tính xác thực). Dữ liệu có cấu trúc tự nhiên hơn so với bản ghi dữ liệu quan hệ nhưng nó có thể tương quan với dữ liệu đó. Bài viết sẽ cung cấp chi tiết những gì tạo nên dữ liệu lớn.
Có lẽ cách tốt nhất để hiểu dữ liệu lớn là xem lại lịch sử của nó, như Tạp chí Forbes đã làm (xem phần Tài nguyên). Quy mô của dữ liệu lớn đã tăng hơn 2.5 exabyte mỗi ngày. Điều thú vị, phần lớn các dữ liệu sẽ không bao giờ được xem lại bởi con người (chỉ với 7 tỷ người Mỹ, mỗi chúng tả sẽ phải xem nhiều hơn 300 MB thông tin mỗi ngày). Thực hiện thử thách này, cách duy nhất để sử dụng nhiều dữ liệu là tự động hóa từ máy tính đến máy tính (machine-to-machine) hoặc truy vấn thông tin dữ liệu lớn. Hơn nữa, nếu dữ liệu này được lưu trữ trong thời gian dài, làm thế nào chúng ta có thể biết những dữ liệu nào đã bị hỏng? Chúng ta có thể kiểm tra phân loại dữ liệu lưu trữ (chẳng hạn MD5, nó là một hình thức kiểm tra) và sử dụng mảng dự phòng của các ổ đĩa độc lập (RAID—mirrors, XOR parity, hoặc mã tẩy xóa để phát hiện và phục hồi những dữ liệu bị lỗi), nhưng cũng đáng lo là có một số dữ liệu có thể bị lỗi mà không phát hiện được (xem phần Tài nguyên).
Lưu trữ trực tuyến, một người phụ trách dữ liệu đã điều tra nghiên cứu về mối quan tâm này. Trên hết, tính xác thực của dữ liệu lớn là một thách thức, nhưng cũng có những mã tẩy xóa và những phương thức phân loại dữ liệu nâng cao. Những phương thức truyền thống như XOR RAID hoặc simple mirroring — chúng chỉ cung cấp những bảo vệ chống lại mất dữ liệu khi thiết bị lưu trữ lỗi và không xử lý kịch bản lỗi gây ra bởi lỗi phần mềm, lỗi toán tử trung tâm dữ liệu, hoặc thất bại khi truyền thông tin quá thời gian chờ cho phép — giờ đây đã được thay thế bằng RAID-6 và các mã tẩy xóa nâng cao hơn. Các khái niệm về độ bền dữ liệu cho dữ liệu lớn đã trở nên quan trọng, trong một chủ đề tôi đã nghiên cứu kết nối mô hình dữ liệu này, khả năng con người xem lại để xác thực là không thể, và lỗi dữ liệu có thể không được chú ý cho đến khi nó cuối cùng được truy cập hoặc truy vấn trong tương lai xa.
Thiết kế hệ thống dữ liệu lớn
Những kiến trúc bảo vệ dữ liệu ở quy mô lớn nên bao gồm việc chống mất mát, hư hỏng ngầm, phần mềm độc hại, và ý đồ chỉnh sửa dữ liệu bởi những tội phạm mạng hoặc thông qua chiến tranh mạng. Dữ liệu là tài sản và ngày càng được sử dụng nhiều bởi chính phủ và cũng như trong kinh doanh để đưa ra những quyết định quan trọng, nhưng nếu độ trung thực của dữ liệu không được biết, giá trị của dữ liệu bị giảm hoặc thậm chí bị mất và tệ hơn nữa là: khiến cho việc đưa ra quyết định sai lầm. Chủ đề này nằm ngoại phạm vi thảo luận của bài viết, nhưng rõ ràng sự bảo vệ mất mát và sửa đổi không được biết hoặc hỏng hóc dữ liệu là cần thiết.
Một cách để hiểu dữ liệu lớn rõ hơn đơn giản là tiếp cận gần hơn những trang web điện toán đám mây, những trang web này có đủ dữ liệu (thông thường là petabytes) cùng với các công cụ truy vấn (thường là terabytes) cho các ứng dụng sử dụng. Hầu hết chúng ta truy vấn Google hàng ngày, nhưng Google cũng cung cấp BigQuery, BigQuery sử dụng việc lưu trữ và tìm kiếm theo dạng cột phức tạp hơn (đã được thảo luận kỹ hơn thông qua một ví dụ). Những ví dụ nổi tiếng khác như là Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ liệu kỹ thuật số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), và đông đảo những nhà cung cấp dịch vụ dữ liệu lớn mới.
Các công ty có dữ liệu lớn nội tại cũng như trên các hệ thống điện toán đám mây riêng. Nhiều hệ thống dữ liệu lớn chỉ cho phép người truy vấn đọc (với bản sao từ các nguồn được tạo ra bởi máy tính), nhưng có thể gồm chứng thực mạnh nếu họ cho phép cập nhật tới cơ sở dữ liệu hoặc dữ liệu không có cấu trúc, sử dụng những đoạn mã, yêu cầu người dùng xác thực thông qua những mã xác nhận tin nhắn văn bản điện thoạị. Với những kiểm tra hình ảnh để xác minh việc nhập dữ liệu của con người và có thể sử dụng xác thực sinh trắc học nhiều hơn trong tương lai.
Những ứng dụng dữ liệu lớn
Mỗi ngày, người ta nghĩ đến các ứng dụng hàng đầu để phân tích phim ảnh trong các lĩnh vực thị giác máy tính và phân tích phim ảnh, một số năm có lẽ thực hiện vì yêu cầu tính toán hoặc chi phí thực hiện. Tuy nhiên, đây là một danh sách những ứng dụng thú vị:
  • Phân tích tâm lý thị trường chứng khoán sử dụng Google Trends đã chỉ ra được tương quan tốt cho những tăng giảm chỉ mục theo thời gian, mà có lẽ không đáng ngạc nhiên nhưng những thú vị về tính trọng đại như một ứng dụng dữ liệu lớn. Bài viết "Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đoán xu hướng thương mại trong thị trường tài chính sử dụng Google Trends)" (xem phần Tài nguyên) cung cấp bằng chứng rằng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn quyết định mua và bán cổ phiếu nắm giữ có thể tốt hơn việc mua và nắm giữ những chiến lược đơn giản và quỹ đầu tư index. Nghiên cứu này có thể được phân tích chi tiết hơn nhưng những kết quả của nó cũng khá thuyết phục. Một nghiên cứu thú vị dự đoán những khả năng xảy ra của một hệ thống cho một lĩnh vực hình thức kinh doanh thực tế.
  • Phân loại hình ảnh Picasa từ Google là công cụ hữu ích cho phép người dùng sắp xếp, truy vấn, và nhận dạng khuôn mặt tự động sử dụng những công nghệ thị giác máy tính kết hợp với máy học. Đây là một kết quả tuyệt vời có được từ giá trị của những ứng dụng và dịch vụ trên dữ liệu lớn. Công cụ này làm rõ việc phân tích dữ liệu lớn sẽ đòi hỏi phân tích nâng cao như thị giác máy tính và phương pháp như thị giác máy tính.
  • Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và Amazon (sách và sản phẩm) dùng dữ liệu khách hàng và nhiều đại lý trong một phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng tác). Dịch vụ dữ liệu lớn này đã là chủ đề của nhiều nghiên cứu tiên tiến trong máy học và khai phá dữ liệu. Rõ ràng là nếu khả năng thực hiện gợi ý tốt thì có thể tăng doanh số bán hàng và sự hài lòng của khách hàng.
  • Những phân tích dựa trên khách hàng có thể phân tích tâm lý cho khách hàng của bạn dựa trên dữ liệu mạng xã hội (Facebook và Twitter) khi dữ liệu văn bản này có liên quan đến BI (Business Intelligence) thu thập từ những thông tin giao dịch khách hàng truyền thống. Phân tích tâm lý cho phép một doanh nghiệp biết nhu cầu khách hàng muốn về sản phẩm của họ, sự quan tâm của khách hàng về sản phẩm của họ hay của đối thủ cạnh tranh, những gì khách hàng thích và không thích, v.v....
  • Dữ liệu được tạo ra từ máy tính có nguồn gốc từ các hệ thống mạng báo hiệu (ví dụ: những cảm biến nhúng trong các hệ thống lớn như giao thông đô thị, đèn giao thông, và cơ sở hạ tầng); dữ liệu giữa các thiết bị máy móc, theo đó mà các thiết bị cảm biến hay dữ liệu đăng nhập từ một máy (thường là trong lĩnh vực này) được truyền đến các máy khác; và các tập tin nhật ký, thường được sử dụng nhiều nhất trong công nghệ thông tin để gỡ lỗi nhiều vấn đề và xử lý các sự cố hệ thống ngoài ý muốn (bỏ qua các vấn đề cần sự can thiệp của con người để khôi phục và tiếp tục hoạt động).
  • Hệ thống đặt chỗ cho du lịch thì đang được cải thiện bằng cách kết hợp sở thích khách hàng, hậu cần và tiền sử trước khi đưa ra những đề nghị hữu ích, đó luôn là một nhiệm vụ khó khăn.
  • Giải trí trên mạng xã hội đang thay đổi các khía cạnh xã hội của việc phát sóng truyền hình và các đoạn phim, nơi mà kỹ thuật số đáp ứng yêu cầu nội dung mọi lúc mọi nơi, nhưng việc chia sẻ kinh nghiệm vẫn phải thông qua mạng xã hội. Mặc dù vậy, điều này giúp khán giả cảm thấy thú vị hơn, cho phép khán giả sáng tạo nội dung, biên kịch, và những nghệ sĩ có thể biết nhiều hơn về khán giả của họ.
  • Hệ chuẩn đoán y học bao gồm những hệ thống có sự hỗ trợ của hệ chuyên gia dựa trên luật (gọi là DSSes: Rule-based Expert Decision Support Systems), nhưng với dữ liệu lớn, bằng chứng tồn tại những hệ thống này có thể ra khỏi nghiên cứu và trở thành những người phụ tá y tế chính. Ví dụ: Một Hệ chuyên gia để hỗ trợ đánh giá tâm lý người bệnh có nguy cơ tự tử đã được đề cập trong bài nghiên cứu (xem phần Tài nguyên). Phần chứng minh những hệ thống này để so sánh với dữ liệu trong lịch sử. Những hệ thống có thể thay con người quyết định làm mà còn có thể cải thiện nó khi việc sử dụng như một công cụ hỗ trợ.
Đây chưa phải là tất cả các ứng dụng dữ liệu lớn, bạn có thể khám phá thêm ở phần Tài nguyên. Ứng dụng của truy vấn cột, phân tích dữ liệu phi cấu trúc, MapReduce, biểu diễn và suy luận về dữ liệu lớn chỉ vừa mới bắt đầu.

Dữ liệu lớn trong an toàn và an ninh công cộng

Việc tích hợp giữa phân tích dữ liệu lớn với thông tin công cộng (hoặc thông tin riêng tư được cung cấp một cách tự nguyện bởi người giám sát được ủy thác thông tin đó) có thể giúp tìm kiếm nhanh trên các bộ dữ liệu lớn về phim ảnh, giọng nói, dữ liệu cảm biến, và văn bản thư điện tử để cải thiện độ an toàn chung cho phục hồi sau sự cố, để ngăn ngừa các mối đe dọa khủng bố, và để hiểu những mối quan tâm của cộng đồng. Người ta có thể nghĩ tới điều này như là những phản hồi nếu so sánh với những hệ thống phát cảnh báo khẩn cấp. Tất nhiên, mối quan tâm và mảng đen tối tiềm tàng hiện hữu trong dữ liệu lớn và các phân tích phim ảnh, giọng nói, thư điện tử khi nó trở thành sự truy cập trái phép vào các thông tin cá nhân. Những hệ thống như vậy đòi hỏi phải sử dụng một cách có trách nhiệm, hoàn toàn kín đáo, và phải kiểm duyệt thông tin thu thập được từ nguồn công cộng và mạng máy tính.
Những điều cân nhắc về quyền riêng tư trong ứng dụng dữ liệu lớn
Nếu các công ty, chính phủ, và các tổ chức cần cẩn thận thu thập, phân tích và sử dụng dữ liệu lớn, giá trị cộng đồng sẽ được rõ ràng. Nếu những khả năng phân tích dữ liệu lớn bị lạm dụng, lòng tin công chúng sẽ bị mất, và giá trị không còn. Tình cảm của người sử dụng phải là tự nguyện, và giá trị mang lại khi hiểu được cảm nhận của họ với cái mà họ tương tác, họ ở đâu, hay họ đang đọc gì. Nếu cảm biến đọc ý nghĩ được phát minh, người ta có thể lâm vào tình cảnh tiến thoái lưỡng nan về đạo đức. Ngay lúc này, việc sử dụng máy thu hình, nhận dạng giọng nói hay khai phá dữ liệu trên thư điện tử nên tuân thủ cẩn thận vấn đề riêng tư và theo cách nào để có thể giữ được lòng tin và sự tự tin của người dùng.
Một ví dụ điển hình cho trường hợp này là, tại thời điểm viết bài báo này, vấn đề cơ sở dữ liệu thoại của Cơ quan An ninh Quốc gia Mỹ, cái có thể bị khai thác như là một mối đe dọa đối với quốc gia, đã tạo nên một sự quan ngại lớn (xem phần Tài nguyên). Rõ ràng, rất nhiều những chi tiết có thể đặt ra trong những tình huống ngắn, nhưng sự cân nhắc cẩn trọng khi thiết kế hệ thống dữ liệu lớn sẽ giúp tránh những vụ kiện tụng rắc rối.
Ví dụ: Sử dụng kịch bản R

Dự án R Toolkit trong InfoSphere Streams

InfoSphere Streams là một nền tảng điện toán tiên tiến, nó cho phép người dùng phát triển các ứng dụng để tiếp cận, phân tích và so sánh thông tin một cách nhanh chóng có được từ hàng nghìn nguồn tài nguyên thực, xử lý lưu lượng dữ liệu tốc độ rất cao: trên một triệu các sự kiện hoặc tin nhắn mỗi giây. Phiên bản 3.1 bao gồm dự án R Toolkit cho phép bạn áp dụng các thuật toán khai phá dữ liệu phức tạp để phát hiện mẫu quan tâm trong dòng dữ liệu. Hãy tìm hiểu thêmdùng thử nó..
Phân tích trực quan (Visual analytics) là một thuật ngữ được sử dụng để mô tả sự hình dung dữ liệu lớn (phân biệt với phân tích video (video analytics), việc phân tích các hình ảnh tuần tự để hiểu nó chứa những gì). Trong lịch sử, việc hình dung là một việc làm thường xuyên tìm thấy trong tính toán hiệu năng cao (high-performance computing), nhưng với sự phát triển của dữ liệu phi cấu trúc từ thiết bị di động, các mạng xã hội, các hệ thống máy móc (machine to machine), và dữ liệu cảm biến khởi tạo mạng (network-generated), những hình dung là cần thiết cho sự phát triển trong lĩnh vực dữ liệu lớn. Biểu đồ hình tròn đơn giản, nguyên tắc Pareto, biểu đồ X-Y và biểu đồ cột là những cách biểu diễn trực quan truyền thống thường được sử dụng trong kinh doanh, ra quyết định dường như không hiệu quả trong việc hiểu dữ liệu lớn.
Tìm hiểu thêm về vấn đề này, tôi đã thực thi các phương trình Lorenz trong C và ngôn ngữ kịch bản R (một công cụ phân tích dữ liệu lớn). Sử dụng C và Microsoft Excel để hiểu những phương trình phức tạp bị hạn chế, hầu hết bởi vì việc mô hình hóa và phân tích thì không được tích hợp và các bảng tính thường không cung cấp tính năng phức tạp hình dung nhiều chiều. Với C và Excel, tôi có thể thực thi trên biểu đồ 2 chiều của các phương trình Lorenz với sự đối lưu khí quyển như hình 1. Có thể có một cách tốt hơn để hình dung dữ liệu này trong Excel, nhưng không có cách quan sát trực quan nào tốt hơn biểu đồ 2 chiều.

Hình 1. Biểu đồ 2 chiều của mô hình Lorenz
Image shows a two-dimensional Lorenz plot

Các phân tích trực quan với R
Sử dụng R, bạn có thể import (nhập vào) một số lượng lớn các phân tích và các gói thư viện trực quan và sử dụng chúng với ngôn ngữ kịch bản trực quan. Chẳng hạn, các phương trình Lorenz trực quan tốt hơn, tôi đã import gói scatterplot3d, được thể hiện ở hình 2, cho ta thấy một cái nhìn trực quan 3 chiều của các phương trình Lorenz, được so sánh với các bảng tính đơn giản. Bạn cũng có thể sử dụng công cụ trực quan khoa học khác như MATLAB hoặc thậm chí là GNU cho kiểu phân tích này trên mô hình. Nhưng R cũng có rất nhiều các gói phù hợp với việc phân tích các tập hợp dữ liệu nhiều chiều mà không phải là khoa học tự nhiên, chẳng hạn như các trực quan BI, bạn có thể tìm thấy nhiều ví dụ trong phần Tài nguyên. Ví dụ Lorens là một giới thiệu đơn giản cho khả năng của R.

Hình 2. Import một gói trực quan vào R cho Windows
Image showing an imported visualization package into R

Khá giống MATLAB cung cấp một môi trường phân tích tương tác khoa học và kỹ thuật cho sự khám phá dữ liệu và mô hình cho các nhà khoa học, R cung cấp tương tự tất cả các loại cho các nhà phân tích kinh doanh và phân tích dữ liệu lớn (xem Hình 3 và Liệt kê 1). Sự khám phá tương tác dữ liệu lớn với các công cụ như R và BigQuery là những công cụ khác nhau phân tích dữ liệu lớn từ việc phân tích theo bó (batch-oriented) và khai phá dữ liệu, thường được thực hiện bằng MapReduce. Dù có bằng cách nào, mục tiêu là tạo ra các mô hình mới hỗ trợ quyết định từ những khối lượng khổng lồ các dữ liệu.

Hình 3. Một mô hình R 3D của phương trình Lorenz
An image showing an R 3D plot of Lorenz equations


Liệt kê 1. Mẫu kịch bản R cho phương trình Lorenz
 
library(scatterplot3d)
library(gdata)
getwd()
[1] "C:/Users/ssiewert/Documents"
mydata = read.csv("lorenz.csv")
scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue",
              col.grid="lightblue", main="Lorenz Equations", pch=20)

Để giúp bạn hiểu và tìm hiểu về sự trực quan này, ví dụ Lorenz cho C, Excel và R đã sẵn sàng để tải về. Để tìm hiểu thêm, bạn có thể sử dụng R để để hình dung dữ liệu trả về từ Google BigQuery.
Tương lai của dữ liệu lớn
Bài báo này tạo ra một cuộc tranh luận về giá trị của dữ liệu lớn, đã được đặt câu hỏi, đặc biệt khi độ tin cậy của dữ liệu là không thể xác nhận, và các cung cấp đề xuất cho sự phát triển về độ tin cậy cùng với khái niệm đối mặt với khối lượng, đa dạng và tốc độ dữ liệu. Các kinh nghiệm hiện nay cho ta thấy rằng scale-out, sử dụng các phương pháp độ bền dữ liệu tiên tiến, việc kết hợp các mạng tốc độ cao cho các clusters, và giải thuật scale-out như MapReduce và cột tìm kiếm cho thấy sự hứa hẹn xử lý hiệu quả cho dữ liệu lớn. Tuy nhiên, vấn đề mà thậm chí còn không được xem xét, như sự sai lạc dữ liệu một cách âm thầm (silent data corruption), đã trở thành vấn đề quan tâm mới bởi vì sự tăng trưởng về khối lượng, mức độ đa dạng và nhiều dữ liệu, trước đây ít được quan tâm khi mà tỷ lệ lỗi bit trong đĩa thì ít hơn so với số lượng bytes truyền và lưu trữ. Do đó, kiến trúc dữ liệu lớn ngày nay, cần phải thông minh hơn trong việc bảo vệ tính xác thực và giá trị của dữ liệu nhưng cũng phải thiết kế các dịch vụ hỗ trợ nó dễ dàng thực thi và hữu dụng khi ngày nay có rất nhiều người xem xét vấn đề này hàng ngày.

No comments:

Post a Comment