Thời đại Big Data

Thế giới đang bước vào kỷ nguyên Big Data, khi các quyết định được đưa ra không dựa trên chuyên gia mà dựa vào các tập hợp dữ liệu lớn. Công ty Nghiên cứu thị trường IDC dự báo doanh thu đến từ thị trường Big Data sẽ đạt 16,1 tỷ USD trong năm nay và tăng 27% mỗi năm để đạt 32,4 tỷ USD vào năm 2017.

Ngày 10-7, hãng IBM công bố vừa chi thêm 3 tỷ USD để đầu tư vào Big Data. Nghiên cứu của IDC cho biết nhờ Big Data, năm 2013 Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. Vậy Big Data là gì mà thần kỳ như vậy?

BigData

Dữ liệu lớn

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể đảm đương được. Kích cỡ của Big Data đang tăng lên từng ngày, tính đến năm 2012 nó đã lên hàng exabyte (1 exabyte = 1 tỷ gigabyte). Các nhà khoa học thường xuyên gặp phải những hạn chế do tập dữ liệu lớn trong nhiều lĩnh vực, như khí tượng học, di truyền học, mô phỏng vật lý phức tạp, nghiên cứu sinh học và môi trường. Những hạn chế cũng ảnh hưởng đến việc tìm kiếm trên internet, tài chính và thông tin kinh doanh.

Năm 2001, nhà phân tích Doug Laney của hãng META Group (nay là Công ty Nghiên cứu Gartner), cho rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng 3 chiều: lượng (volume), vận tốc (velocity) và chủng loại (variety).

Ngày nay, các chuyên gia công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài 3 tính chất trên còn cần đến các dạng xử lý mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc.

Theo IBM, lượng thông tin công nghệ bình quân đầu người trên thế giới tăng gần gấp đôi mỗi 40 tháng kể từ năm 1980. Tính đến năm 2012, mỗi ngày có 2,5 exabyte dữ liệu được tạo ra. Còn theo tài liệu của Intel vào tháng 9-2013, hiện nay thế giới đang tạo ra 1 petabyte (1 petabyte = 1.000 terabyte) dữ liệu trong mỗi 11 giây (tương đương một đoạn video HD dài 13 năm).

Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn trang bán hàng trực tuyến eBay sử dụng 2 trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online Amazon.com đã sử dụng một hệ thống Linux để xử lý hàng triệu hoạt động mỗi ngày cùng những yêu cầu từ khoảng nửa triệu đối tác bán hàng.

Tính đến năm 2005, họ từng sở hữu 3 cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng 7,8TB, 18,5TB và 24,7TB. Tương tự, Facebook cũng phải quản lý 50 tỷ bức ảnh từ người dùng tải lên, trong khi YouTube hay Google phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.

Năm 2011, Tập đoàn McKinsey đề xuất những công nghệ có thể dùng với Big Data, bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng xử lý dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (các hệ thống có khả năng học hỏi từ dữ liệu – một nhánh của trí tuệ nhân tạo), xử lý ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lý tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau…

Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lý dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ Big Data. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lý, sao lưu và tối ưu hóa cách sử dụng Big Data.

Big Data để làm gì?

Theo các chuyên gia, có 4 lợi ích Big Data có thể mang lại: cắt giảm chi phí; giảm thời gian; tăng thời gian phát triển, tối ưu hóa sản phẩm; hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Thí dụ, khi mua sắm online trên eBay, Amazon hoặc những trang thương mại điện tử, các trang này sẽ đưa ra những sản phẩm gợi ý tiếp theo. Nếu bạn xem điện thoại, nó sẽ gợi ý mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun sẽ có thêm gợi ý quần jean, dây nịt…

Do đó, nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn. Những thông tin về thói quen, sở thích này có được từ lượng dữ liệu khổng lồ các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data, nó không chỉ giúp tăng lợi nhuận cho chính họ mà giúp tiết kiệm thời gian cho khách hàng trong mua sắm.

Bên cạnh đó, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, thậm chí ra phương án phòng ngừa trước một dịch bệnh nào đó. Năm 2009, Google đã sử dụng dữ liệu Big Data để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1. Dịch vụ này có tên là Google Flu Trends.

Xu hướng Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh rất sát với kết quả do 2 hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực, sau đó được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới. Theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66USD cho mỗi 1USD chi phí phân tích, tức gấp 10 lần.

Một trường học tại Hoa Kỳ có được sự tăng trưởng doanh thu 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác tăng 1.000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm. Trong World Cup kỳ này, Big Data cũng đưa ra dự báo đội tuyển Đức sẽ vô địch.

Big Data được dùng ngày càng nhiều trong hầu hết lĩnh vực kinh tế-xã hội.

Thị trường Big Data được nhận định có giá trị tới 100 tỷ USD vào năm 2010 và đang không ngừng tăng với tốc độ chóng mặt. Chẳng hạn, hiện thế giới có tới 4,6 tỷ thuê bao điện thoại di động và có từ 1-2 tỷ người dùng internet. Từ năm 1990-2005, hơn 1 tỷ người trên thế giới tham gia vào tầng lớp trung lưu, tức nhu cầu lưu trữ và sử dụng thông tin của thế giới tăng lên nhiều lần.

Năng lực trao đổi thông tin hiệu quả của thế giới thông qua mạng viễn thông là 281 petabyte vào năm 1986; 471 petabyte vào năm 1993; 2,2 exabyte vào năm 2000; 65 exabyte trong năm 2007 và dự báo lưu lượng thông tin qua internet sẽ đạt 667 exabyte hàng năm vào năm 2014. Người ta ước tính 1/3 các thông tin được lưu trữ trên toàn cầu là ở dạng văn bản chữ số và dữ liệu hình ảnh, đó là định dạng hữu ích nhất cho hầu hết các ứng dụng Big Data.