Categories
Câu lệnh SQL

Mệnh đề GROUP BY trong SQL

Câu lệnh group by trong sql được dùng để kết hợp với lệnh SELECT để sắp xếp dữ liệu đồng nhất vào các nhóm, hàm này trong ngôn ngữ sql đi sau mệnh đề WHERE trong một lệnh SELECT và ở trước mệnh đề ORDER BY. SQL và những mệnh đề như GROUP BY ngày càng đóng vai trò quan trọng không kém đối với hệ quản trị CSDL.

Biết cách sử dụng GROUP BY khi dùng ngôn ngữ SQL là một điều cần thiết.

 
Không có một câu lệnh nào là thừa thải của một hàm CSDL, chỉ là bạn chưa cần thiết dùng đến chúng hoặc chưa áp dụng đúng mục đích. Mệnh đề group by sql được thêm vào bởi vì các hàm tập hợp (như SUM) trả về một tập của các giá trị ở cột đó mỗi khi chúng được gọi, nhờ lệnh GROUP BY trong sql, ta có thể tính tổng của các giá trị theo từng nhóm lẻ tại cột.
Cách thực hiện nội dung như sau:

SELECT tên_cột, SUM (tên _cột) FROM tên_bảng GROUP BY tên_cột
 

Ví dụ ta có bản ghi “HOCPHISINHVIEN” như sau:

ID TEN TUOI MONHOC HOCPHI
1 Hoang 21 CNTT 4
2 Nhu 22 TCNH 5
3 Hung 21 CK 3
4 Hoang 21 CK 3
5 Hung 21 CNTT 4
6 Ngan 22 TCNH 5

 
Nếu muốn biết tổng số học phí của từng sinh viên, ta buộc phải dùng truy vấn như sau:
SQL> SELECT TEN, SUM(HOCPHI) FROM HOCPHISINHVIEN
GROUP BY TEN;
Khi đó sẽ cho ra một bảng ghi nội dung mới như sau:

TEN SUM(HOCPHI)
Hoang 7
Nhu 5
Hung 7
Ngan 5

 
Cách sử dụng mệnh đề nhìn chung cũng khá đơn giản, chỉ cần nắm rõ cú pháp, bạn cũng không cần phải thuộc nằm lòng mới có thể sử dụng được, đây cũng có thể được xem là một lợi thế của người tạo ngôn ngữ truy vấn SQL.

Một số hàm tổng hợp thường đi kèm với Group by khi lập trình SQL.

Theo công thức cấu trúc, group by trong sql server thường được đi kèm với một số hàm nhất định, cụ thể nhất đó là:

  • AVG: Hàm AVG trong SQL được sử dụng để tìm giá trị trung bình của một trường của các bản ghi đa dạng, khi sử dụng kèm mệnh đề group by trong sql, hàm sẽ trả về giá trị trung bình của nhóm cột.
  • COUNT: Hàm COUNT là hàm đơn giản nhất và rất hữu dụng để đếm số bản ghi, được mong đợi trả về bởi một lệnh SELECT. Khi sử dụng, mệnh đề này sẽ trả về số lần xuất hiện ở một cột.
  • MAX: Hàm MAX trong SQL được tận dụng để tìm ra giá trị lớn nhất trong một tập hợp bản ghi, người dùng có thể tìm ra được giá trị lớn nhất của tất cả các bản ghi được cung cấp bởi tên với mỗi mệnh đề group by sql server
  • MIN: Tương tự, hàm MIN trả về giá trị nhỏ nhất trong nhóm cột khi đi kèm với group by SQL.

Như vậy, nội dung về group by sql là gì thì chắc hẳn sau bài viết này bí mật đã được bật mí, người dùng có thể tự tìm hiểu cho mình biết khi nào dùng group by sql, vận dụng ngôn ngữ máy tính sẽ trở nên dễ dàng hơn khi bạn tinh thông về nó.

 

Ví dụ về câu lệnh group by để lập trình sql

Một vài ví dụ về câu lệnh group by in sql để bạn đọc có thể tham khảo.

Ví dụ 1: Lệnh group by sql Server

SELECT cot1, cot2, … cot_N,

Ham_tong (cot)

FROM bang

[WHERE dieukien]

GROUP BY cot1, cot2, … cot_N;

Chú thích:

– Cot1, cot2, … cotN: là giá trị không nằm ở hàm tổng và phải nằm ở mệnh đề GROUP BY.

– Ham_tong: có thể là các hàm như MIN, MAX, COUNT, SUM, AVG

– Bang: bảng cần lấy bảng ghi và phải có ít nhất 1 bảng thuộc lệnh FROM

– WHERE dieukien: điều kiện phù hợp đáp ứng với mệnh đề WHERE

Ví dụ 2: Cú pháp group by sql Server dùng hàm SUM. Dưới đây là ví dụ dùng hàm SUM tính tổng để trả về mã số thiết bị và tổng số lượng theo mã số thiết bị.

SELECT maso_thietbi, SUM(soluong) AS “Tong so luong”

FROM thietbi

GROUP BY maso_thietbi

Ví dụ 3: Cú pháp group by sql Server dùng hàm MIN. Cú pháp này dùng hàm MIN nhỏ nhất để cho bạn kết quả tên sản phẩm và số lượng tối thiểu của tên sản phẩm đó.

SELECT ten_sanpham, MIN(Soluong) AS “So luong it nhat”

FROM sanpham

GROUP BY ten_san pham

Ví dụ 4: Cú pháp group by SQL trong Access

SELECT fieldlist

FROM table

WHERE criteria

[GROUP BY groupfieldlist]

Chú thích:

– Fieldlist là tên của một hoặc nhiều trường cần truy xuất

– Table là tên bảng cần truy xuất các bản ghi

– Criteria là điều kiện cho mệnh đề WHERE

– Groupfieldlist là tên tối đa 10 trường được dùng để nhóm các bản ghi theo thứ tự cấp độ nhóm cao nhất đến thấp nhất.

3. Lưu ý về lệnh group by

– Mệnh đề GROUP BY phải luôn theo sau các điều kiện thuộc mệnh đề WHERE, tức sau khi viết mệnh đề WHERE xong xuống dòng đến mệnh đề GROUP BY.– Mệnh đề ORDER BY luôn theo sau mệnh đề GROUP BY nếu được sử dụng ở trong cú pháp truy vấn dữ liệu.

Trên đây là những chia sẻ của chúng tôi về câu lệnh group by thuộc ngôn ngữ sql, một lệnh được sử dụng kết hợp với mệnh đề WHERE để gom nhóm trong sql các dữ liệu giống nhau. Hy vọng từ những thông tin cú pháp trên bạn có thể học tập, thực hành với kết quả sử dụng ngôn ngữ SQL tốt hơn. 

 

Categories
Hệ quản trị SQL

Liệu big data có đang thiếu tính bảo mật?

Ở các bài viết trước, chúng ta đã được tìm hiểu về các câu truy vấn SQL hay các bài viết về công nghệ, SEO (search engine optimation) và digital marketing. Ở bài viết này, chúng tôi sẽ nói về một lĩnh vực khá nổi trong những năm gần đây – Big Data, hay còn gọi là dữ liệu lớn. Bài viết này chỉ tập trung nói về tính bảo mật của lĩnh vực này.

Lưu ý rằng bài viết không nói cụ thể về cách sử dụng SQL để lấy thông tin từ dữ liệu lớn.

bảo mật

Tính bảo mật cho big data

Khi việc giữ tính bảo mật cho big data không còn là điều mới mẻ, liệu các công ti cung cấp dịch vụ này có đang bắt kịp với những hiểm họa mạng mới nhất chưa? Từ virus với tống tiền, có rất nhiều phần mềm độc hại và chương trình có thể hack, xóa hay tống tiền dữ liệu của bạn. Có một vài lĩnh vực mà những nhà cung cấp bảo mật cho big data cần phải phát triển bao gồm tống tiền, lỗ hổng trong hệ thống bảo mật Hadoop, và các chính sách dữ liệu của chính công ty. Sự tin tưởng của khách hàng là một nhu cầu quan trọng và đang gia tăng trong giao dịch kinh doanh trục tuyến. Giữ an toàn cho dữ liệu từ các mối đe dọa sẽ giúp khách hàng yên tâm rằng thông tin của họ an toàn với công ty mà họ đang giao dịch cùng.

 

Chỉ mới 4 năm về trước, các CEO, từ các công ty startup hay đến các doanh nghiệp có tên tuổi, ít phải lo lắng hơn về vấn đề tin tưởng trong kinh doanh- chỉ 37%. Đến năm 2016, hầu hết các công ty đều tin rằng dữ liệu được an toàn đồng nghĩa với sự tin tưởng của khách hàng. Sau đây là là 3 mối đe dọa hàng đầu đối với tính riêng tư và bảo mật mà các công ti đang phải đối mặt.

Lỗ hổng trong hệ thống bảo mật Hadoop

Hadoop cung cấp sự phân phối dữ liệu cho các công ty cũng như các phân tích và chiến lược IoT. Tuy nhiên, nó lại chứa đựng rủi ro về bảo mật thông tin. Ba công ty lớn phân phối Hadoop đã nổi tiếng nhờ việc tạo ra những ngăn phần mềm bảo mật riêng biệt và cạnh tranh. Điều này tạo ra một loạt các vấn đề liên quan đến bảo mật, bao gồm sự không tương thích và vendor lock-in. Với các hồ dữ liệu của Hadoop, dữ liệu nguyên và không có cấu trúc cùng với dữ liệu bán cấu trúc có chất lượng không xác định sẽ giữ nguyên là không có cấu trúc cho đến khi nó được đọc.

Các chính sách về dữ liệu của công ty

Đôi khi các chính sách của một công ti lại chính là lỗ hổng bảo mật mà một hacker có thể lợi dụng để tiếp cận với các dữ liệu của bạn. Chẳng hạn, một bộ phận IT có thể bị cản trở trong việc mua hoặc triển khai công nghệ mới nhất để bảo vệ chống tội phạm mạng do các cấp quản lý phải phê duyệt một đơn đặt hàng. Trong khi chờ được phê duyệt thì an ninh mạng phải chịu các lỗ hổng và hy vọng rằng một hacker sẽ không tìm thấy và lợi dụng chúng. Nói đến động lực thì tiền là mục tiêu chính cho các hacker. Vì vậy mà một hacker không mất gì khi cứ cố gắng liên tục để thâm nhập được lớp bảo vệ dữ liệu của công ti. Một số CEO điều hành cách xa bộ phận IT của họ và không nhận ra mức độ nghiêm trọng của các lỗ hổng trong an ninh dữ liệu của mình.

Phần mềm tống tiền

Đúng như tên gọi của nó, phần mềm tống tiền nắm giữ thông tin của một công ty và chỉ trả lại khi công ty đã trả tiền chuộc. Để làm điều này, chúng có thể xóa thông tin trong ngân hàng dữ liệu của công ty hay sử dụng một phần mềm đặc biệt. Điều này có nghĩa là công ty đó không thể truy cập ngân hàng dữ liệu của chính mình mà không có sự trợ giúp của các hacker. Đôi lúc nhờ vào các phần mềm tống tiền, các hacker có thể qua được điểm yếu của Hadoop, cổng 50070 (port: 50070). Các hacker đang tìm kiếm các cài đặt HDFS mở để chúng có thể lợi dụng. Có rất nhiều hacker tay nghề cao tận dụng Internet sẵn có để tìm các thông tin dễ tấn công trên toàn cầu và lợi dụng nó. Nga đã trở nên đặc biệt nổi tiếng với những hacker “tốt” cũng như các hacker “xấu”, IE White Hat và Black Hat. Ở quốc gia này, nó được coi là có ích để có cả hai bộ kỹ năng về máy tính.

Rõ ràng là có một khoảng cách lớn giữa kiến thức về các lỗ hổng bảo mật của big data và việc thực hiện các kĩ thuật để bảo vệ các lỗ hổng đó. Khi càng lúc càng nhiều công ti trở nên trực tuyến và nhận ra rằng dữ liệu cũng cần được bảo vệ như những hệ thống máy tính khác của công ti, an ninh tổng hợp bao quát tất cả các mức độ khỏi việc bị lợi dụng vẫn còn là một bước mới nhưng rất cần thiết.

Categories
Hệ quản trị SQL

5 cách mà big data đang dần thay đổi ngành dịch vụ

Ngành dịch vụ khách hàng đã luôn dựa vào big data để cải thiện sự hài lòng của các thượng đế. Ở bài viết này, bên cạnh tính bảo mật, chúng ta sẽ nói về mặt thực tiễn của Big Data trong các ngành dịch vụ.

Nguồn sống của mọi tổ chức, dù có hướng đến dịch vụ hay không, chính là khả năng phục vụ khách hàng tốt. Cách mà bạn tương tác với khách hàng ảnh hưởng đến cách nghĩ của họ về bạn, điều có tác động đến số lượng khách hàng quen của bạn.

nganh big data

Vai trò của Big Data trong ngành dịch vụ

Dưới đây là một số cách mà big data có thể cách mạng hóa ngành dịch vụ khách hàng:

1. Truy cập vào các nguồn tài nguyên

Một nguồn tri thức nội bộ có đầy đủ câu trả lời cho những câu hỏi thường gặp sẽ là một nguồn lực tuyệt vời cho nhũng nhân viên trực điện thoại. Việc cho phép khách hàng truy cập những tài nguyên này sẽ làm giảm việc kẹt đường dây điện thoại bằng cách loại bỏ tất cả những câu hỏi cơ bản nhất mà một khách hàng thường hỏi.

Dàn nhân viên hỗ trợ có thể truy cập vào các ghi chú về một tài khoản cụ thể sẽ đối phó với một vấn đề lặp đi lặp lại dễ dàng hơn. Điều này rất có ý nghĩa với những khách hàng đang bực bội và mệt mỏi với việc lặp lại lời mình.

2. Khả năng tiếp cận sự trợ giúp

Đừng giấu giếm số điện thoại và địa chỉ email của bạn. Giấu đi cách liên lạc với bạn có thể sẽ gây ra điều ngược lại với ý muốn của bạn. Thay vì cắt giảm chi phí cho dịch vụ khách hàng, có khi bạn đang mất đi thu nhập vì khách hàng của bạn chán cảnh thiếu dịch vụ và đi tìm sự trợ giúp ở một nơi khác.

3. Cải thiện thời gian phản hồi (response time)

Có rất nhiều cách để một doanh nghiệp có thể giảm thời gian chờ đợi của khách hàng. Thí dụ, các công ti có thể có thể đầu tư ho trợ cho một trung tâm cuộc gọi lớn hơn với dàn nhân viên cần thiết để đảm đương hết số cuộc gọi.

Các công ti có thể cung cấp nhiều phương tiện trợ giúp khác, để những khách hàng kiên nhẫn hơn có thể sử dụng hỗ trợ qua email hay chat, trái ngược với những người dùng điện thoại. Điều này có nghĩa là một nhân viên hỗ trợ khách hàng có thể vừa trả lời email để hỗ trợ một khách hàng trong khi đang hỗ trợ một người khác qua điện thoại.

4. Sự đồng cảm

Cần có sự huấn luyện kĩ càng để giải quyết những vấn đề. Tính kiên nhẫn rất có ích, nhưng việc huấn luyện bài bản cũng rất cần thiết. Trong việc hỗ trợ kĩ thuật, công ty CompTIA A+ yêu cầu các nhân viên của mình không được coi các phản hồi như vấn đề riêng tư và phải sử dụng những câu hỏi mở để đạt được kết quả tốt hơn. Đối phó với khách hàng là việc khó khăn, tuy nhiên các nhân viên hỗ trợ khách hàng là những chuyên gia. Các tổ chức tốt luôn cung cấp sự huấn luyện và lí thuyết cần thiết cho những nhân viên của họ để có thể tìm được câu trả lời cho khách hàng nhanh hơn.

5. Dự đoán nhu cầu của khách hàng

Yếu tố cuối cùng cho một dịch vụ khách hàng hoàn hảo là phải dự đoán được nhu cầu của khách hàng. Nói cách khác, mục tiêu là phải cung cấp cho khách hàng những thứ mà học không thể tìm thấy ở nơi nào khác. Một dịch vụ tốt sẽ cảm thấy cần phải giúp cho khách hàng của mình cảm thấy vui lòng hơn, như là giảm phí giao hàng hay tặng cho khách hàng một món đồ miễn phí nào đó nếu lỡ có giao hàng sai. Không phải công ty nào cũng có thể cho không sản phẩm được, nhưng học có nhũng cách khác để làm cho khách hàng ngạc nhiên và hài lòng.

Categories
Hệ quản trị SQL

6 lí do bạn nên học SQL

Ngôn ngữ truy vấn có cấu trúc (Structured Query Language), hay còn được gọi là ngôn ngữ truy vấn SQL, là một ngôn ngữ lập trình đặc biệt được dùng để tương tác với cơ sở dữ liệu. Nó phân tích và hiểu các cơ sở dữ liệu bao gồm nhiều lĩnh vực dữ liệu được chứa trong các bảng.

SQL bắt đầu từ những năm 1970, các kỹ sư của IBM là Donald Chamberlin và Raymond Boyce đã thiết kế phiên bản ban đầu để thao tác và lấy dữ liệu được lưu trữ trong hệ thống cơ sở dữ liệu của công ty. Hai người tiên phong của SQL gọi SEQUEL ngôn ngữ mới của họ, mặc dù sau đó họ buộc phải thay đổi nó do các vấn đề bản quyền.

1) Khai thác dữ liệu

Học SQL sẽ cho phép bạn khai thác dữ liệu với hiệu quả cao hơn. Chỉ cần sử dụng các truy vấn cơ bản là bạn có thể xác định được dữ liệu cụ thể theo khoảng thời gian, xem sự kiện cập nhật, theo dõi hoạt động của bảng và nhiều hơn nữa. Chỉ mình điều này là đủ lý do để bạn chủ động học lập trình SQL.

2) Nhu cầu lập trình viên SQL đang tăng cao

Bạn sẽ dễ dàng tìm được việc nếu là một lập trình viên SQL.

Theo trang đăng việc Indeed.com, có nhiều công việc cho lập trình viên SQL (năm 2016) hơn bất kỳ loại ngôn ngữ lập trình khác, bao gồm cả Java, JavaScript, C +, Python, C ++ và PHP.

3) Thao tác dữ liệu

SQL đặc biệt hiệu quả trong việc thao tác dữ liệu. Bởi vì nó cho phép bạn xem dữ liệu chính xác và cách thức nó hoạt động, bạn sẽ kiểm tra và thao tác dữ liệu dễ dàng hơn. Hơn nữa, dữ liệu được lưu trữ trong SQL là động, nghĩa là bạn có thể sửa đổi và thao tác bất cứ lúc nào bằng một số truy vấn SQL cơ bản.

4) Kết hợp dữ liệu từ nhiều nguồn

Kết hợp dữ liệu từ hai nguồn trở lên có thể tốn nhiều thời gian và là một công việc khó khăn. Tuy nhiên, SQL làm cho quá trình này dễ dàng hơn bằng cách hỗ trợ “merges” đơn giản, trong đó các trường hoặc toàn bộ cơ sở dữ liệu được kết hợp.

5) Quản lý các nhóm dữ liệu lớn

Bạn vẫn đang tìm kiếm một cách thiết thực để quản lý các tập dữ liệu lớn? Các bảng tính truyền thống có thể được sử dụng để quản lý các vùng dữ liệu vừa và nhỏ, nhưng bạn sẽ cần một giải pháp khác khi xử lý hồ sơ quá lớn.

Thật may mắn, đây là một lĩnh vực mà trong đó SQL tỏa sáng: cho dù đó là 1.000 bản ghi hoặc 100 triệu, SQL được trang bị đầy đủ để quản lý các hồ dữ liệu của bạn bất chấp kích cỡ.

6) Máy chủ và Cơ sở dữ liệu

Nếu bạn đang định quản lý một máy chủ, hoặc tạo máy chủ của riêng bạn, ngôn ngữ lập trình SQL chắc chắn sẽ hữu ích. Nhiều máy chủ sử dụng các cơ sở dữ liệu như MySQL hoặc SQL Server để lưu trữ dữ liệu. Bằng cách tự làm quen với SQL và các truy vấn tương ứng của nó, bạn có thể dễ dàng điều sử dụng các web dữ liệu khác khó sử dụng hơn.

Categories
Hệ quản trị SQL

Tìm hiểu về Big Data: Data science và Data Analytics

Hãy cùng phân loại hai thuật ngữ này, sự khác nhau giữa cả hai, và ý nghĩa của nó. Dù sao thì, phân biệt được hai thuật ngữ này ngày nay là rất quan trọng. Big data đang trở nên quan trọng hơn trong thế giới của chúng ta, và có rất nhiều khía cạnh khác nhau của khái niệm này đáng để khám phá.

Nhưng trước tiên, Big Data là gì

Big data được biết đến là khối lượng dữ liệu khổng lồ mà không thể xử lý được cách bằng các kỹ thuật truyền thống. Việc xử lý big data bắt đầu với dữ liệu thô chưa được tổng hợp và không thực sự có thể lưu trữ trong bộ nhớ của một máy tính duy nhất. Mỗi ngày, big data tràn ngập các doanh nghiệp. Nó là thứ được sử dụng để phân tích thông tin chi tiết để hỗ trợ việc ra quyết định tốt hơn và lập kế hoạch chiến lược kinh doanh.

Theo trang Gartner, định nghĩa của Big Data là “Tài nguyên thông tin đa dạng cao, tốc độ cao, cần các hình thức xử lý thông tin hiệu quả và sáng tạo và có thể cho phép tăng cường quyết định, hiểu biết và tự động hóa quy trình . ” Tuy nhiên, Big data có những điểm yếu nhất định.

Data science vs data analytics:

Data Science:

Đây là một lĩnh vực bao gồm tất cả mọi thứ liên quan đến việc chuẩn bị, chọn lọc và phân tích, xử lý dữ liệu có cấu trúc và không có cấu trúc. Data science kết hợp toán học, thống kê, thu thập dữ liệu một cách thông minh, lập trình, giải quyết vấn đề, làm sạch dữ liệu, chuẩn bị và sắp xếp dữ liệu.

Đơn giản có thể nói rằng đó là sự kết hợp của một số kỹ thuật được sử dụng khi cố gắng lấy thông tin và chi tiết từ dữ liệu, nó không chỉ là những truy vấn SQL cơ bản.

Data Analytics:

Điều này liên quan đến việc áp dụng các quy trình thuật toán hoặc cơ học trong việc rút ra một cái nhìn sâu sắc. Ví dụ, tìm mối tương quan hợp lý giữa các bộ dữ liệu bằng cách chạy một số thuật toán nhất định. Data analytics được nhiều ngành sử dụng để cho phép họ đưa ra các quyết định tốt hơn và xác minh hoặc bác bỏ các mô hình và lý thuyết hiện có.

Data Analytics tập trung chủ yếu vào suy luận, đó là hành động đưa ra kết luận chủ yếu dựa vào kiến thức của nhà nghiên cứu.

Tại sao nó lại quan trọng?

Khoa học dữ liệu đóng một vai trò rất lớn trong việc nghiên cứu máy móc và trí tuệ nhân tạo. Một điều rất cần thiết trong thị trường hiện nay là có thể sàng lọc và kết nối lượng dữ liệu khổng lồ, tiếp theo là tạo các thuật toán và chức năng cho phép các thực thể ảo rút ra dữ liệu.

Phát biểu của Google, công ty gần đây đã mua lại Kaggle, một cộng đồng trực tuyến tổ chức cuộc thi tìm hiểu về khoa học dữ liệu và máy học. Thực tế, công nghệ này chính là tương lai – và Google biết điều đó. Đó là lý do tại sao hiểu được sự phân biệt giữa các thuật ngữ này là rất quan trọng.

Suy cho cùng, hai thuật ngữ này cũng không quá khó hiểu. Cả hai đều là những thám tử dữ liệu, những người phân loại các tập hợp thống kê lớn, số liệu, báo cáo, v.v … cho đến khi họ tìm thấy thông tin cần thiết mà họ đến. Cách làm và mục tiêu cuối cùng có thể khác nhau, nhưng cả hai lại không quá khác biệt.

Chúng ta đã cùng nắm bắt được ranh giới mỏng manh phân biệt hai khái niệm data science và data analytics. Nhưng đây chỉ là sự bắt đầu. Có nhiều dữ liệu hơn về hai thuật ngữ này. Và, như tôi đã nói nhiều lần trong phần này, dữ liệu rất quan trọng. Nó đã trở nên nổi bật hơn trong cuộc sống của chúng ta vì nó liên quan đến tất cả mọi thứ từ thể thao đến hẹn hò với kinh doanh đến thuốc. Việc dữ liệu quyết định hành động của chúng ta đã và đang xảy ra rồi, vì vậy không bao giờ là quá thừa khi học hỏi nhiều về Big Data ý nghĩa của nó đối với cuộc sống của bạn.

Categories
Hệ quản trị SQL

Từ excel đến ngôn ngữ truy vấn SQL

Nếu bạn sử dụng Excel tại nơi làm việc, bạn có thể thường phải bực bội với hộp thoại này:

Bạn có thể phải làm việc trên một bảng tính cực kì khó sửa chữa, nơi mà mỗi cú nhấp chuột kéo dài tới 10 giây màn hình đóng băng. Thường thì điều này là do các tập tin lớn hoặc các bảng tính có quá nhiều các công thức. Excel có thể xử lý tới một triệu hàng, nhưng khi bạn đang làm việc với một tập dữ liệu lớn hoặc thực hiện vệc phân tích nặng nề, excel sẽ chậm lại trước khi bạn tới giới hạn số hàng.

Excel có một điểm yếu khác có thể dẫn tới sự kém hiệu quả: cấu trúc của nó quá linh hoạt. Điều này có vẻ lạ – linh hoạt là một trong những lý do nhiều người yêu thích Excel.Tuy nhiên, nếu một ô có thể được thao tác một cách dễ dàng, thì việc kiểm soát toàn bộ bảng tính sẽ khó hơn. Tính linh hoạt của Excel làm cho tính tuân thủ và chính xác trong các tập dữ liệu lớn là gần như không thể. Dù bạn có cảnh giác như thế nào, bạn vẫn có thể bỏ lỡ một cái gì đó.

Tuy nhiên, có một công cụ tốt hơn cho công việc này.

Xin chào SQL

Dữ liệu bạn đang làm việc trên Excel phải đến từ đâu đó. Nơi đó là một cơ sở dữ liệu. Có bao nhiêu lượt truy cập web vào tháng 1? Tỷ lệ bỏ qua kênh thanh toán của chúng tôi cho sản phẩm mà chúng tôi vừa tung ra là gì? Đây là tất cả các truy vấn. Là một người dùng Excel, bạn có thể nghĩ đến cách bạn viết những câu hỏi này dưới dạng công thức nếu được trang bị bộ dữ liệu thích hợp.

Vậy làm thế nào để bạn trực tiếp truy vấn một cơ sở dữ liệu? Trong hầu hết các trường hợp, người ta sử dụng ngôn ngữ truy vấn SQL (viết tắt của Structured Query Language). SQL cho cơ sở dữ liệu biết bạn muốn xem dữ liệu nào và thao tác nó với phép tính. Khi bạn cảm thấy thoải mái hơn với SQL, bạn có thể di chuyển nhiều phân tích của bạn hơn vào SQL cho đến lúc mà Excel không còn là lựa chọn số 1 nữa. Cơ sở dữ liệu SQL có thể xử lý lượng dữ liệu khổng lồ mà không gặp vấn đề về hiệu năng và có cấu trúc có trật tự để bảo vệ tính toàn vẹn của dữ liệu.

Bảng tính, hãy gặp Cơ sở dữ liệu quan hệ

Cơ sở dữ liệu là một bộ sưu tập dữ liệu có tổ chức. Có rất nhiều loại cơ sở dữ liệu khác nhau, nhưng loại cơ sở dữ liệu cụ thể mà SQL có thể giao tiếp được gọi là cơ sở dữ liệu quan hệ. Cũng như một bảng tính Excel bao gồm các bảng tính, một cơ sở dữ liệu quan hệ bao gồm các bảng, như một bảng dưới đây.

Các bảng có các hàng và cột giống như bảng tính, nhưng trong một bảng, bạn không thể tương tác với từng ô riêng lẻ. Lý do là vì cơ sở dữ liệu có cấu trúc cứng nhắc. Các giá trị trong mỗi hàng được gắn với nhau như một đơn vị duy nhất. Mỗi cột phải có một tên duy nhất và chỉ có thể chứa một loại dữ liệu cụ thể.Cấu trúc linh hoạt của Excel có vẻ khá hay, nhưng bởi vì cấu trúc của cơ sở dữ liệu rất nghiêm ngặt, nên dễ bảo vệ tính toàn vẹn của dữ liệu hơn. Nói cách khác, khó xảy ra sự không nhất quán và sai sót hơn. Và điều đó có nghĩa là bạn có thể đặt lòng tin vào dữ liệu của bạn nhiều hơn.

Cách phổ biến nhất để thao tác dữ liệu trong Excel là sử dụng công thức. Công thức bao gồm một hoặc nhiều hàm cho Excel biết phải làm gì với dữ liệu trong một ô. Ví dụ: bạn có thể thêm các giá trị số bằng nhau bằng SUM (A1: A5) hoặc trung bình chúng bằng AVERAGE (A1: A5).

Tương đương trong SQL là một truy vấn. Ví dụ về một truy vấn trong bảng trên:

SELECT player_name,

hometown,

state,

weight

FROM benn.college_football_players

SELECT và FROM là hai câu lệnh SQL cơ bản. Giống như các công thức, các truy vấn bao gồm các hàm chỉ định thao tác dữ liệu. Các câu lệnh SQL cũng có thể chứa các mệnh đề, toán tử, biểu thức và một vài thành phần khác, nhưng chúng ta sẽ không đi sâu vào các chi tiết ở đây. Những gì bạn cần biết là bạn có thể sử dụng SQL để thao tác dữ liệu cũng như bạn có thể làm trong Excel.

Bạn vẫn còn lưỡng lự? Hãy tham khảo bài viết sau để biết 6 lí do bạn nên học SQL nhé.

Categories
Hệ quản trị SQL

Hadoop – Tổng quan về dữ liệu lớn

Big data là ngành kinh doanh lớn gần đây. Trong vài năm trở lại đây, các doanh nghiệp đã nhận ra giá trị mà việc phân tích dữ liệu mang lại và đã tham gia vào việc này. Thực tế thì ngày nay mọi thứ đều bị giám sát và đo đạc, tạo nên nhiều dòng big data, thường là nhanh chóng hơn những gì các doanh nghiệp có thể tự xử lý. Vấn đề là, theo định nghĩa thì big data là lớn, nên những chênh lệch nhỏ hay sai lầm trong thu thập dữ liệu có thể gây ra những hậu quả đáng kể, sai lệch thông tin và rút ra những kết luận không chính xác.

Đi cùng với big data là những thử thách trong việc phân tích chúng theo cách tập trung kinh doanh và cách duy nhất để đạt được điều đó là phải chắc chắn rằng các công ty phải có chiến lược quản lý dữ liệu.

big data

Dữ liệu Lớn là gì?

Dữ liệu lớn có nghĩa là một dữ liệu lớn, đó là tập hợp các tập dữ liệu lớn không thể xử lý bằng các kỹ thuật máy tính truyền thống. Dữ liệu lớn không chỉ đơn thuần là một dữ liệu mà gồm nhiều phạm trù, kỹ thuật khác nhau.

Lợi ích của dữ liệu lớn

Dữ liệu lớn thực sự quan trọng đối với cuộc sống của chúng ta và của nó đang nổi lên như một trong những công nghệ quan trọng nhất trong thế giới hiện đại. Theo dõi chỉ là một vài lợi ích mà rất nhiều người biết đến với chúng ta: Sử dụng thông tin được lưu giữ trong mạng xã hội như Facebook, các cơ quan tiếp thị đang tìm hiểu về phản ứng của chiến dịch, quảng cáo và các phương tiện quảng cáo khác.

Sử dụng thông tin trong các phương tiện truyền thông xã hội như sở thích và nhận thức sản phẩm của người tiêu dùng, các công ty sản xuất và các tổ chức bán lẻ đang lên kế hoạch sản xuất. Sử dụng dữ liệu về lịch sử y tế của bệnh nhân, bệnh viện đang cung cấp dịch vụ tốt hơn và nhanh chóng.

hadoop-big-data

Hadoop là gì?

Hadoop là một khuôn khổ mã nguồn mở cho phép lưu trữ và xử lý dữ liệu lớn trong một môi trường phân tán qua các nhóm máy tính sử dụng các mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ các máy chủ đơn lẻ đến hàng ngàn máy, mỗi máy cung cấp tính toán và lưu trữ cục bộ.

Có những kỹ thuật để tối ưu hóa việc phân tích big data dựa trên framework này giúp giảm thiểu đi những “tạp âm” có thể xâm nhập vào những kho big data này. Sau đây là 5 trong số đó:

Tối ưu hóa việc thu thập dữ liệu

Thu thập dữ liệu là bước đầu tiên trong một chuỗi sự kiện để đưa ra quyết định kinh doanh cuối cùng. Việc đảm bảo tính liên kết giữa những dữ liệu đã thu thập và những số liệu mà doanh nghiệp quan tâm tới là rất quan trọng.

Lưu trữ và quản lý dữ liệu là một bước quan trong trong việc phân tích dữ liệu. Đó là điều bắt buộc để chất lượng dữ liệu và hiệu quả phân tích sẽ được duy trì.

Loại bỏ thông tin rác

Dữ liệu bẩn là tai họa của việc phân tích big data. Dữ liệu bẩn bao gồm thông tin không chính xác, thừa hoặc thiếu về khách hàng, có thể làm hỏng thuật toán và làm cho dữ liệu sai và không đầy đủ. Ra quyết định dựa trên những dữ liệu bẩn sẽ tạo ra một viễn cảnh nhiều rắc rối.

Dữ liệu bẩn có thể ảnh hưởng đến các ngành rõ nhất như quảng cáo và quản trị kinh doanh nhưng ngành tài chính và quan hệ khách hàng cũng bị tác động xấu thông qua quyết định kinh doanh dựa trên thông tin sai lệch.

Câu trả lời cho câu hỏi về dữ liệu bẩn là sự kiểm soát tại chỗ để đảm bảo dữ liệu đi vào hệ thống thật sạch sẽ. Đặc biệt, tạo bản sao thông tin tự do, hoàn thiện và chính xác. Đó là các ứng dụng mà các doanh nghiệp chuyên về các kỹ thuật anti debugging và làm sạch dữ liệu, và các ứng dụng này cần được đầu tư cho các công ty có quan tâm đến phân tích big data. Vệ sinh dữ liệu là điều hàng đầu nhân viên tiếp thị vì knock-on effect của thông tin chất lượng kém có thể khiến các công ty trả giá đắt.

Chuẩn hóa bộ dữ liệu

Trong hầu hết các tình huống kinh doanh, dữ liệu đến từ nhiều nguồn khác nhau và trong các định dạng khác nhau. Những mâu thuẫn này có thể trở thành những kết quả phân tích sai lầm và làm lệch kết luận thống kê một cách đáng kể. Để tránh sự cố này, cần phải quyết định khuôn khổ hoặc định dạng chuẩn cho dữ liệu và tuân thủ chặt chẽ nó.

phan tich so lieu

Phân tích số liệu

Ngay cả dữ liệu sạch, đã được tổ chức và tích hợp cũng có thể là vấn đề cho việc phân tích.Trong trường hợp này, phân chia dữ liệu thành các nhóm sẽ rất có ích. Bằng cách này, những xu hướng trong các nhóm phụ có thể được phân tích rõ hơn và đem lại giá trị kết quả lớn hơn. Điều này đặc biệt đúng đối với các xu hướng và hành vi nhất định không liên quan đến toàn bộ các dữ liệu khác.

Chất lượng dữ liệu là cần thiết để phân tích big data. Nhiều công ty cố gắng nhảy vào với phần mềm phân tích, mà không hề nghĩ đến việc những gì đang được đưa vào hệ thống. Kết quả là các ngoại suy và diễn giải không chính xác có thể gây tốn kém và gây thiệt hại cho các công ty. Một nền tảng cơ sở dữ liệu được quản lý tốt cũng là một công cụ không thể thiếu cho các doanh nghiệp đang cố tận dụng việc phân tích big data.

Categories
Hệ quản trị SQL

Tại sao bạn nên học ngôn ngữ truy vấn SQL

SQL là gì?

SQL (Structured Query Language) là ngôn ngữ chính chịu trách nhiệm quản lý dữ liệu và cấu trúc dữ liệu chứa trong một hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS). Nói một cách đơn giản, SQL là ngôn ngữ mà bạn sử dụng để tương tác với cơ sở dữ liệu. Có bốn hoạt động cơ bản mà SQL có thể thực hiện: INSERT, SELECTs, UPDATEs và DELETEs.

Tại sao bạn nên học SQL?

1) Bởi vì bạn sẽ có mức lương rất khá

Mức lương trung bình của SQL Developer, theo Indeed.com, là 92.000 USD! SQL DBAs (Quản trị cơ sở dữ liệu – những người đảm bảo rằng các cơ sở dữ liệu đang hoạt động tốt nhất có thể) có mức lương trung bình là 97.000 đô la! Xét rằng thu nhập gia đình trung bình của Hoa Kỳ là khoảng 52.000 đô la, thu nhập gần gấp đôi thu nhập gia đình trung bình cho thấy cuộc sống khá tốt.

2) SQL là một kỹ năng mà các nhà tuyển dụng tìm kiếm

Các nhà tuyển dụng đang tìm kiếm những cá nhân biết sử dụng SQL. Các nhà tuyển dụng biết giá trị mà một người biết lập trình SQL mang lại cho công ty và muốn sử dụng những cá nhân này. Nếu bạn đang muốn đổi chỗ làm, học SQL làm cho bạn trở thành một mục tiêu săn đón tiềm năng.

3) Bởi vì bạn có thể tự trả lời cho bất kỳ câu hỏi nào

Hãy suy nghĩ về tất cả các câu hỏi của bạn về dữ liệu một cách thường xuyên. Doanh thu của chúng tôi năm ngoái là bao nhiêu? Mức độ hài lòng trung bình của khách hàng là gì? Chúng tôi giảm chi phí đến mức nào so với mùa hè năm ngoái? Đây là tất cả các câu hỏi có thể được trả lời bằng cách sử dụng SQL. Khi bạn xác định cơ sở dữ liệu lưu trữ dữ liệu bạn muốn khám phá, SQL cho phép bạn trả lời các câu hỏi của riêng bạn. Bạn không còn phải dựa vào các báo cáo quá đơn giản hoặc gửi email cho đồng nghiệp để theo dõi dữ liệu. SQL cho phép bạn trở thành một nhân viên tự túc hơn.

4) Bởi vì bạn không còn phải đối phó với việc Excel sập nữa

Cơ sở dữ liệu quan hệ được thiết kế để lưu trữ hàng triệu hàng dữ liệu (thậm chí hàng tỷ hàng). SQL cho phép bạn thực hiện các thao tác trên số lượng lớn dữ liệu mà không phải lo lắng về việc sập chương trình. . Microsoft Excel là một công cụ tuyệt vời; nó chỉ là không được thiết kế để thực hiện các hoạt động trên hàng chục triệu hàng cùng một lúc. Cơ sở dữ liệu quan hệ được thiết kế cho những hoạt động lớn hơn, và SQL là ngôn ngữ cho phép bạn hoàn thành chúng.

5) Bởi vì bạn sẽ không bao giờ phải tự hỏi “Tôi đã làm báo cáo như thế nào?”

Các truy vấn SQL có thể dễ dàng lưu lại và sử dụng lại tại bất kỳ thời điểm nào. Mã SQL cũng có thể được chỉnh sửa với các ghi chú, vì vậy bạn có thể bao gồm mô tả rõ ràng trực tiếp trong truy vấn của bạn.Với mã SQL, bạn chỉ cần viết mã một lần, lưu lại, và chạy lại nếu cần báo cáo hai lần. Nghĩ đến những giờ – thậm chí NGÀY – mà bạn có thể tiết kiệm mỗi tháng.

Tóm lại

SQL là một kĩ năng cực kỳ quan trọng và có giá trị mong muốn. Rất nhiều doanh nghiệp của chúng ta đang dược số hóa. Dữ liệu số là dữ liệu; dữ liệu có nghĩa là cơ sở dữ liệu, và, để truy cập vào các cơ sở dữ liệu, bạn cần SQL. Hãy thử đọc một tạp chí kinh doanh và KHÔNG thấy gì đó về thông tin kinh doanh hoặc phân tích. Khi các tổ chức cố gắng tận dụng dữ liệu của họ, họ sẽ cần nhiều cá nhân hơn với các kỹ năng để truy cập và phân tích dữ liệu đó. SQL là kỹ năng cho phép bạn làm điều đó.