Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?

Những bài viết hữu ích từ Quora

5.0 (1 đánh giá)
Tạo bởi Jordan Trần Cập nhật lần cuối 14:01 08-09-2019 2.526 lượt xem 0 bình luận
Học nhanh

Danh sách bài học

Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?

Dẫn Nhập 

Hi mọi người! Đây là bài dịch trong chuỗi bài NHỮNG BÀI VIẾT HỮU ÍCH TỪ QUORA của website Howkteam.com & các Kter tâm huyết, Mong muốn mang lại thêm nhiều kiến thức hữu ích từ các nguồn kiến thức nước ngoài đến với cộng đồng. Hy vọng các bạn sẽ thích những kiến thức được đề cập trong các bài dịch hữu ích này! Cảm ơn các bạn!

Bạn có thể tham gia đóng góp bài dịch bằng cách đăng ký cùng Kteam qua: Fanpage How Kteam


Câu hỏi

“Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?”


Thảo luận

William Chen, nhà nghiên cứu định lượng tại Two Sigma.

Dưới đây là một số tài liệu trực tuyến được đánh giá cao và hoàn toàn miễn phí mà bạn có thể sử dụng để tự học khoa học dữ liệu.

Bên cạnh đó, tôi rất khuyến khích các bạn theo dõi mục Data Science của Quora nếu bạn chưa được cập nhật các câu hỏi và câu trả lời mới.

Bước 1. Đảm bảo các điều kiện đầu tiên cần thiết ở bạn.

Trước khi bắt đầu, bạn cần biết Tính Toán Đa Biến, Đại Số Tuyến Tính và Python. Nếu bạn đã từng học Tính Toán Đa Biến, Đại Số Tuyến Tính, bạn đã có đủ nền tảng để hiểu hầu hết tất cả các xác suất / thống kê / học máy cho công việc.

Tính Toán Đa Biến rất hữu ích cho một số phần của học máy và rất nhiều thứ khác liên quan. Đại Số Tuyến Tính / ma trận là hoàn toàn cần thiết cho rất nhiều khái niệm trong học máy.

Bạn cũng cần một số nền tảng lập trình để bắt đầu, tốt nhất là bằng Python. Những điều khác trong hướng dẫn này có thể được học trong lúc luyện tập (như random forests, pandas, thử nghiệm A / B), nhưng bạn không thể làm việc mà không biết cách lập trình!

Python là ngôn ngữ quan trọng nhất mà một nhà khoa học dữ liệu cần phải học. Để tìm hiểu về mã, tìm hiểu thêm về Python và tại sao Python lại quan trọng như vậy, hãy xem qua:

R là ngôn ngữ quan trọng thứ hai để một nhà khoa học dữ liệu học hỏi. Tôi nói điều này vì tôi là một người có nền tảng thống kê và người đã trải qua đại học chủ yếu chỉ sử dụng R. Trong khi R rất hữu dụng cho các nhiệm vụ thống kê chuyên dụng, Python linh hoạt hơn vì nó sẽ kết nối bạn nhiều hơn với công việc ở cấp độ sản xuất.

Nếu bạn đang ở trường, hãy tham gia các lớp học thống kê và khoa học máy tính. Kiểm tra What classes should I take if I want to become a data scientist?

Bước 2. Tự gắn mình vào cộng đồng.

Xem qua Meetup để tìm thêm một số người làm cùng! Tham dự một buổi nói chuyện chung, trao đổi về khoa học dữ liệu trực tiếp và gặp gỡ các nhà khoa học dữ liệu, các nhà khoa học dữ liệu giỏi khác. Bắt đầu đọc blog khoa học dữ liệu và theo dõi các nhà khoa học dữ liệu có ảnh hưởng:

Bước 3. Thiết lập và tìm hiểu các công cụ cần thiết cho khoa học dữ liệu.

Python

R

  • Cài đặt R và RStudio (Thật tốt nếu như bạn biết cả R và Python)
  • Học R qua swirl

Sublime Text

SQL

Bước 4. Tìm hiểu Xác suất và Thống kê.

Hãy chắc chắn bạn đã học một khóa liên quan đến ứng dụng nặng trong R hoặc Python. Biết xác suất và thống kê sẽ chỉ thực sự hữu ích nếu bạn có thể thực hiện những gì bạn học.

Bước 5. Hoàn thành khóa học khoa học dữ liệu của Harvard.

Kể từ mùa thu năm 2015, khóa học này đã có ở năm thứ ba và cố gắng để có thể áp dụng một cách hữu ích nhất cho các sinh viên quan tâm đến việc trở thành nhà khoa học dữ liệu.

Tôi khuyên bạn nên thực hành mục các phòng thí nghiệm và bài giảng từ năm 2015 bài tập về nhà từ năm 2013 (bài tập về nhà năm 2015 không có sẵn cho công chúng, và bài tập về nhà năm 2014 đã được thay đổi tác giả).

Khóa học này được phát triển một phần bởi một người dùng Quora, Giáo sư Joe Blitzstein. Dưới đây là tất cả các tài liệu!

Giới thiệu về khóa học:

Tài liệu khóa học:

Bài tập:

Lab:

(đây là Labs năm 2013, đối với các Labs năm 2015, hãy xem trong Class Material)

Bước 6. Thực hiện tất cả các cuộc thi Getting Started và Playground Competitions của Kaggle.

Tôi sẽ KHÔNG khuyên bạn nên thực hiện bất kỳ cuộc thi tiền thưởng nào. Họ thường có các bộ dữ liệu quá lớn, phức tạp hoặc gây phiền nhiễu và không tốt cho việc học. Các cuộc thi có sẵn tại Competitions | Kaggle

Bắt đầu bằng cách học scikit-learn, chơi trò chơi, đọc các hướng dẫn và diễn đàn về các cuộc thi mà bạn đang làm. Tiếp theo, bạn nên tìm hiểu về hướng dẫn Titanic: Machine Learning from Disaster cho các nhiệm vụ phân loại nhị phân (với các biến phân loại, giá trị bị thiếu, v.v.)

Sau đó, hãy thử một số phân loại nhiều lớp với Forest Cover Type Prediction. Bây giờ, hãy thử một nhiệm vụ hồi quy  House Prices: Advanced Regression Techniques. Hãy thử xử lý một số vấn đề với Quora Question Pairs | Kaggle. Cuối cùng, hãy thử bất kỳ cuộc thi dựa trên kiến thức nào khác mà bạn quan tâm!

Bài viết này chỉ là phần 1, tuần sau Kteam sẽ ra tiếp phần 2 cho các bạn, cùng đón xem và học tập để giỏi hơn nhé. Cám ơn các bạn.


Bài dịch có thể vẫn chưa phải là bản dịch sát nhất, hay hoàn chỉnh nhất. Vì vậy, nếu bạn có hứng thú với bài này, bạn có thể tiếp tục dịch các phần trả lời tiếp theo và đóng góp thêm bản dịch chất lượng đến cộng đồng qua phần comment nhé! Cảm ơn các bạn! 


Thảo luận

Nếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần BÌNH LUẬN bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng.

Nội dung bài viết

Tác giả

Khóa học

Những bài viết hữu ích từ Quora

Những bài viết hữu ích từ Quora

Đánh giá

CuIbAp đã đánh giá 08:23 09-09-2019

Thanks ads

Bình luận

Để bình luận, bạn cần đăng nhập bằng tài khoản Howkteam.

Đăng nhập
Không có video.