Nội dung bài viết
Đăng ký học lập trình C++
Tại STDIO bạn được dạy nền tảng lập trình tốt nhất.
Đăng ký học
BigData là một khái niệm, để miêu tả về một khối lượng dữ liệu lớn, khổng lồ. Lớn đến mức dữ liệu không thể lưu trữ trong các hệ thống cơ sở dữ liệu quan hệ truyền thống. BigData đem lại sực mạnh về sự dự báo, sự tối ưu và sự cải thiện, như một ma thuật đầy ma mị trong thời đại công nghệ thông tin. Giá trị của BigData, nằm ở cách mỗi cá nhân, tổ chức khai thác như thế nào tùy vào mục đích của họ.

Giới thiệu

BigData là một khái niệm, một lĩnh vực không phải là mới. BigData đem lại sực mạnh về sự dự báo, sự tối ưu và sự cải thiện, như một ma thuật đầy ma mị trong thời đại công nghệ thông tin. Tuy nhiên việc nghiên cứu và phát triển BigData ở Việt Nam vẫn đang còn là một điều gì đó khá mới và chưa thu hút được các nhà đầu tư. Tôi viết bài viết này dựa trên những kiến thức có được, thiên hướng về tìm hiểu và khai thác khoa học dữ liệu, không mang nặng vấn đề kinh tế và tầm nhìn chiến lược đầu tư. 

Tiền đề bài viết

Let's share to be shared

Bài viết này là một nơi tôi chia sẻ những kiến thức của mình, cũng như lưu trữ kiến thức quý giá mà mình học được.

Đối tượng hướng đến

Đây là một bài chia sẻ kiến thức thuần lý thuyết căn bản, dành cho tất cả các bạn.

BigData

BigData là một khái niệm, để miêu tả về một khối lượng dữ liệu lớn, khổng lồ. Lớn đến mức dữ liệu không thể lưu trữ trong các hệ thống cơ sở dữ liệu quan hệ truyền thống.

Sự phức tạp và không thể định hình thành một thể thống nhất của dữ liệu BigData, cũng là một nhân tố làm nó trở nên khó đồng bộ để lưu trữ trong một hệ thống cơ sở dữ liệu quan hệ truyền thống.

Nói về dữ liệu của BigData, dữ liệu này được thu thập từ rất nhiều nguồn khác nhau, trong đó, bao gồm, không giới hạn dữ liệu từ internet, web2.0, từ các thiết bị nghiên cứu (dữ liệu thiên văn, dữ liệu y tế ...), dữ liệu từ các thiết bị thông minh (hay còn gọi là smart device)... Do đó nó mang cấu trúc không ổn định.

Sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông trong những thập niên gần đây, đặc biệt là lĩnh vực IoT đã đem đến một cải thiện đáng kể đối với các công cụ phục vụ nhu cầu sống của con người. Những chiếc smart phone ngày càng hiện đại là một minh chứng rõ ràng và đáng tin cậy nhất. Ngoài ra còn có thể kể đến những device khác như: smart light, xe ô tô tự lái, các hệ thống CCTV, hay vỹ mô hơn là smar thome, smart city... Ngày càng nhiều, nhiều dữ liệu được tạo ra và vấn đề về quản lí và khai thác dữ liệu được đặt ra...

BigData ra đời.

Sức mạnh và tầm ảnh hưởng

Dữ liệu của BigData khá là rắc rối, tập hợp dữ liệu không mang một cấu trúc nhất đinh. Bởi vì dữ liệu của BigData là dữ liệu được lấy từ rất nhiều nguồn. Tuy nhiên nếu biết khai thác dữ liệu này một cách khoa học và hợp lý, giá trị mang lại sẽ là một kết quả không ngờ.

Chúng ta cùng điểm qua một vài giá trị đáng kinh ngạc của BigData

  • Trong lĩnh vực tài chính - thương mai: các phân tích trên lượng dữ liệu lớn góp phần tối ưu hóa và cải tiến quá trình ra quyết đinh, nhằm giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp. Bằng việc khai thác dữ liệu BigData, doanh nghiệp có thể có cái nhìn tổng quan về hành vi mua hàng của khách hàng, ngoài ra còn xem được những mặt hàng mà khách hàng quan tâm, hoặc họ làm gì khi truy cập vào website, từ đó có thể phân loại khách hàng, thiết lập mục tiêu và phương thức kinh doanh, giới thiệu các sản phẩm dịch vụ hợp lí cho từng loại khách hàng một cách tự động. Trang web thương mại điện tử nổi tiếng Amazon đã áp dụng một hệ thống sử dụng item-to-item collaborative filtering match, nói nôm na là hệ thống giới thiệu các sản phẩm có liên quan đến sản phẩm đã mua, vào năm 2012, nhờ đó doanh thu bán hàng tăng 29% so với cùng kì năm ngoái.
  • Trong lĩnh vực giải trí, mạng xã hội: dữ liệu BigData giúp cho các ông lớn như Facebook và Youtube định hình và phân loại được nhóm người dùng. Áp dụng một dạng của  item-to-item collaborative filtering match để đưa ra những thông tin liên quan như: các thông tin hiện lên trên facebook của bạn, đã phải trải qua quá trình chọn lọc nhờ các thuật toán machine learning và hệ thống dữ liệu BigData khổng lồ. Nếu bạn cảm thấy những thông tin đó cần thiết, hay thậm chí có liên quan tới bạn thôi, thì đó cũng là một thành công của hệ thống BigData của Facebook. Tương tự với Youtube, Youtube có một hệ thống phân tích thông tin rất lớn để lọc ra những video liên quan hay cần thiết với bạn, và áp dụng nó vào chế độ auto play video của họ.
  • Trong lĩnh vực y tế: các dữ liệu người bệnh được cung cấp kịp thời giúp nâng cao hoạt động của bác sĩ và bệnh viện. Trong đó, nhằm dự đoán tỉ lệ, lưu lượng bệnh nhân theo giờ, theo ngày, từ đó có thể sắp xếp, một cách hợp lý số lượng bác sĩ, y tá...

BigData không phải là một cái gì đó quá to tát, quá cao siêu. Về bản chất, nó đơn giản chỉ là một khối lượng dữ liệu khổng lồ, được thu thập. Giá trị của nó, nằm ở cách mỗi cá nhân, tổ chức khai thác như thế nào tùy vào mục đích của họ.

Những giá trị trên chưa phải là tất cả, nhưng là những giá trị nổi bật và thường gặp nhất để minh chứng cho sức mạnh và tầm ảnh hưởng của BigData đến thời đại công nghệ số.

Khó khăn

BigData là một lĩnh vực đang trên đà tiến hóa của nó, những khó khăn đang dần được khắc phục để mở ra một bầu trời tươi sáng hơn. Hãy cùng nhìn lại những khó khăn mà chúng ta đã và vẫn đang cải tiến hằng ngày.

  • Chi phí cho quá trình truyền dữ liệu: Một vấn đề khá nhức nhối và đau đầu. Quá trình truyền dữ liệu lớn thường gánh chịu chi phí cao. Đây là một nút thắt trong quá trình tiến hóa của BigData. Việc nâng cao hay tối ưu hiệu quả của quá trình truyền vẫn là một thách thức không nhỏ đối với các nhà nghiên cứu và phát triển.
  • Tốc độ xử lí dữ liệu thời gian thực: Với một khối lượng dữ liệu lớn, tuy nhiên đòi hỏi quá trình lấy ra dữ liệu cần thiết (còn gọi query) phải nhanh là một thách thức lớn. Hiện nay, đã có khá nhiều hệ thống DataBase System có thể khắc phục được điều này như HBase. Tuy vậy vẫn chưa thật sự mạnh mẽ và hoàn hảo.
  • Năng lượng tiêu thụ của một hệ thống BigData: Đối với BigData, dữ liệu được lưu tại các máy chủ, với con số lên đến hàng trăm hay hàng ngàn máy. Việc sử dụng năng lượng một cách hợp lý cũng là điều đáng quan tâm.
  • Bảo mật và quyền riêng tư: Vấn đề bảo mật luôn là vấn đề tối quan trọng trong các hệ thống cơ sở dữ liệu. Thực tế cho thấy rằng, dữ liệu cá nhân của người dùng, của các tổ chức đều có thể bị xâm phạm. Do đó, việc xây dựng các cơ chế bảo mật là cấp bách. Tuy nhiên, song song với quá trình bảo mật, quá trình truy cập dữ liệu sẽ bị chậm lại. Do đó, các nhà phát triển phải cân nhắc, để đảm bảo cân bằng trong quá trình xây dựng một hệ thống BigData.

Tương lai của BigData

BigData đã gặt hái được rất nhiều thành công trên con đường phát triển của mình.

Các hệ thống dự báo chính xác nơi bùng phát dịch bện H1N1 của Google đã tỏ ra khá hiệu quả trong quá trình dự báo các ổ dịch tại Mỹ. Hãng taxi không có chiếc taxi nào - Uber đã rất thành công trong hệ thống BigData nhằm dự đoán lưu lượng và tần suất khách hàng sử dụng dịch vụ. Nhờ đó Uber luôn có ở mọi nơi. Có một câu nói thế này "không có BigData thì không có sự thành công của Uber bây giờ".

Trong con đường tiến hóa nhanh chóng của mình, BigData cũng gặp vô số lời chỉ trích.

Theo đó cho rằng, việc con người quá phụ thuộc vào BigData và dự đoán của nó sẽ tạo ra sự nhàm chán. Tư duy con người lúc này sẽ dựa dẫm vào BigData, nó sẽ làm mất đi sự quyết đoán, mạo hiểm trong đầu tư kinh doanh. Thêm vào đó, sự phân tích dựa trên dữ liệu BigData chưa hoàn toàn là chính xác.

Nghiêm trọng hơn, các nhà nhân quyền đã lên án dự án FAST - dự án đánh giá hành vi của con người và phát hiện mức độ nguy hiểm với xã hội, là vi phạm các nguyên tắc thiêng liêng của quyền con người. Bởi lẽ, một người có xác suất cao là phạm tội, tuy nhiên chưa hề phạm tội, vô hình chung đã khiến người này bị mang tiếng xấu và bị dè chừng trong mắt mọi người. Điều này quả thật tồi tệ nếu nó xảy ra với tôi hoặc bạn.

Tuy vậy, xét cho cùng, và cũng nhắc lại, sức mạnh của BigData không nằm ở khả năng lưu trữ, mà nằm ở khả năng phân tích và sử dụng thông tin một cách đúng đắn.

Khó khăn phía trước còn nhiều, chông gai vẫn còn đó. Hi vọng rằng, chúng ta có thể thấy một bầu trời rạng ngời hơn ở trong tay chúng ta.

THẢO LUẬN