Hồi quy logistic là gì

  -  

Trong Blog trước của tôi, tôi đã cố gắng giải thích về Hồi quy tuyến tính và cách nó hoạt động. Hãy xem tại sao Hồi quy logistic là một trong những chủ đề quan trọng cần hiểu. Đây là liên kết đến bài viết trước của tôi về Hồi quy tuyến tính trong trường hợp bạn bỏ lỡ nó.

Bạn đang xem: Hồi quy logistic là gì

Nội dung Hồi quy logistic là gì? Các loại hồi quy logistic. Các giả định của hồi quy logistic. Tại sao không hồi quy tuyến tính cho phân loại? Mô hình Logistic. Giải thích về hệ số hiệu quả. Tỷ lệ cược và đăng nhập Ranh giới quyết định. Hàm chi phí của hồi quy logistic. Gradient Descent trong Logistic Regression. Đánh giá mô hình hồi quy logistic.
*
Ảnh của Dose Media trên Unsplash
Hồi quy logistic là gì? Hồi quy logistic là một kỹ thuật thống kê được giám sát để tìm xác suất của biến phụ thuộc (Các lớp có trong biến). Hồi quy logistic sử dụng các hàm được gọi là hàm logit , giúp suy ra mối quan hệ giữa biến phụ thuộc và các biến độc lập bằng cách dự đoán xác suất hoặc cơ hội xảy ra. Các hàm logistic (còn được gọi là hàm sigmoid ) chuyển đổi xác suất thành các giá trị nhị phân có thể được sử dụng thêm cho các dự đoán. Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thể có. Ví dụ-Nam hoặc Nữ. Hồi quy Logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quả / lớp có thể có trở lên mà không cần sắp xếp thứ tự. Ví dụ: Dự đoán chất lượng thực phẩm. (Tốt, Tuyệt vời và Xấu). Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả / lớp có thể có với thứ tự. Ví dụ: Xếp hạng sao từ 1 đến 5 Các giả định của hồi quy logistic:

Ngay cả khi Hồi quy logistic thuộc về mô hình tuyến tính, nó không đưa ra bất kỳ giả định nào của mô hình hồi quy tuyến tính, như: → Nó không yêu cầu mối quan hệ tuyến tính giữa các biến phụ thuộc và độc lập. → Các điều khoản lỗi không cần phải được phân phối bình thường. → Không bắt buộc phải có độ co giãn đồng nhất.

Tuy nhiên, nó có một số giả định của riêng nó:

Nó giả định rằng có tối thiểu hoặc không có đa cộng tuyến giữa các biến độc lập. Cách tốt nhất để kiểm tra tính hợp lệ của đa cộng tuyến là thực hiện VIF (Hệ số lạm phát phương sai). Nó giả định rằng các biến độc lập liên quan tuyến tính đến nhật ký tỷ lệ cược. Nó có thể được kiểm tra bằng phép thử Box-Tidwell. Nó giả định một mẫu lớn để dự đoán tốt. Nó giả định rằng các quan sát là độc lập với nhau. Không có giá trị ảnh hưởng (ngoại lệ) trong các yếu tố dự báo liên tục (biến độc lập). Điều này có thể được kiểm tra với sự trợ giúp của IQR, z-score hoặc có thể được trực quan hóa bằng cách sử dụng các ô trống hoặc vĩ cầm. Logistic Regression với 2 lớp mà biến phụ thuộc là nhị phân và Logistic Regression có thứ tự yêu cầu biến phụ thuộc có thứ tự.
*
Ảnh của Emily Morter trên Unsplash
Tại sao không hồi quy tuyến tính cho phân loại?

Như chúng tôi đã giới thiệu Logistic Regression để giải quyết các vấn đề phân loại, có thể là phân loại nhị phân hoặc vấn đề phân loại nhiều lớp, nhưng tại sao chúng ta không thể sử dụng Linear Regression?

Hồi quy tuyến tính dự đoán các biến liên tục như giá nhà và đầu ra của Hồi quy tuyến tính có thể nằm trong khoảng từ âm vô cùng đến dương vô cùng. Vì, Giá trị dự đoán không phải là giá trị xác suất mà là giá trị liên tục cho các lớp, nên sẽ rất khó để tìm ra ngưỡng phù hợp có thể giúp phân biệt giữa các lớp. Giả sử bạn gặp may với ngưỡng và tìm ra ngưỡng phù hợp cho bài toán lớp nhị phân, Tuy nhiên, nếu bài toán là nhiều lớp thì nó sẽ không đưa ra dự đoán mong muốn. Trong một bài toán đa lớp có thể có n số lớp, Bây giờ mỗi lớp sẽ được gắn nhãn từ 0-n. Giả sử, chúng ta có 5 bài toán lớp 0,1,2,3 và 4 lớp này sẽ không mang hoặc không có bất kỳ thứ tự có ý nghĩa nào. Tuy nhiên, chúng sẽ buộc phải thiết lập một số loại quan hệ giữa phần phụ thuộc và phần độc lập đặc trưng. Hơn nữa, các biến phụ thuộc sẽ được coi là số liên tục và đường phù hợp nhất sẽ đi qua giá trị trung bình của các điểm, cho ra giá trị liên tục có thể dưới 0 và có thể vượt quá 4.

Tất cả các vấn đề được đề cập ở trên được giải quyết bằng Logistic Regression. Thay vào đó, hồi quy Logistic để điều chỉnh dòng phù hợp nhất, cô đọng đầu ra của hàm tuyến tính giữa 0 và 1.


*

Trong công thức của mô hình logistic, khi b0 + b1X == 0 , thì p sẽ là 0,5, tương tự, b0 + b1X> 0 , thì p sẽ hướng về 1 và b0 + b1X Giải thích hệ số Việc giải thích các trọng số khác với Hồi quy tuyến tính vì đầu ra của Hồi quy logistic có xác suất từ ​​0 đến 1. Thay vì hệ số góc đồng hiệu quả (b) là tốc độ thay đổi của p khi x thay đổi, giờ đây hệ số đồng hiệu quả độ dốc được hiểu là tốc độ thay đổi của “tỷ lệ cược log” khi X thay đổi.

*

Bây giờ, chúng ta hãy hiểu tỷ lệ cược đăng nhập là gì.

Tỷ lệ cược và đăng nhập

Tỷ lệ cược được định nghĩa là tỷ số của tỷ lệ cược khi có B và tỷ lệ cược của A khi không có B và ngược lại. Nói cách khác, Tỷ lệ cược là tỷ lệ giữa xác suất thành công và xác suất thất bại và Logit chỉ là Log of the Odds Ratio. Hãy hiểu điều này với ví dụ:

Giả sử xác suất thành công là 0,6. Vì vậy, xác suất thất bại sẽ là (1–0,6) = 0,4 Tỷ lệ cược được xác định từ xác suất và nằm trong khoảng từ 0 đến . Vì vậy, tỷ lệ cược Hiện tại (Thành công) = p / (1-p) hoặc p / q = 0,6 / 0,4 = 1,5 Ngoài ra, tỷ lệ cược (Thất bại) = 0,4 / 0,6 = 0,66667

Bây giờ bạn đã hiểu cơ bản về tỷ lệ chênh lệch, tôi khuyên bạn nên truy cập liên kết này để hiểu cách nó được sử dụng trong Hồi quy logistic và các phép toán đằng sau nó .

Công thức của Tỷ lệ cược là:


*

Nếu chúng ta muốn tỷ lệ chênh lệch giữa các lớp nhị phân thì:


Hàm Logit chỉ là nhật ký của tỷ lệ cược và công thức là:


Trong hồi quy Logistic, chúng ta có thể tính toán tỷ lệ chênh lệch giữa các lớp:


Bây giờ, bạn đã hiểu tỷ lệ chênh lệch là gì, hãy xem ranh giới quyết định là gì:

Ranh giới quyết định Ranh giới quyết định là một đường hoặc lề phân tách các lớp. Thuật toán phân loại là tất cả về việc tìm ra ranh giới quyết định giúp phân biệt giữa các lớp hoàn hảo hoặc gần hoàn hảo. Hồi quy logistic quyết định sự phù hợp thích hợp với ranh giới quyết định để chúng ta có thể dự đoán lớp dữ liệu mới sẽ tương ứng với.

Bây giờ bạn đã hiểu ranh giới quyết định là gì và nó được tìm thấy như thế nào. Hãy cùng tìm hiểu về hàm chi phí của Hồi quy logistic.

Hàm chi phí của hồi quy logistic

Hàm Cost là một hàm đo lường hiệu suất của mô hình Học máy đối với dữ liệu nhất định. Hàm Cost về cơ bản là phép tính sai số giữa giá trị dự đoán và giá trị kỳ vọng và trình bày nó dưới dạng một số thực duy nhất . Nhiều người bị nhầm lẫn giữa Hàm CostHàm Loss , Nói một cách đơn giản Hàm Cost là giá trị trung bình của sai số của n mẫu trong dữ liệu và Hàm Loss là lỗi đối với từng điểm dữ liệu. Nói cách khác, Hàm Loss là đối với một ví dụ đào tạo, Hàm chi phí là cho toàn bộ tập hợp đào tạo.

Vì vậy, khi rõ ràng hàm chi phí là gì, Hãy tiếp tục.

Chúng tôi biết rằng chức năng Logistic là:


Nhiệm vụ chính của chúng ta là tìm tham số (x) tốt nhất trong phương trình trên có trong ảnh để giảm thiểu sai số. Bây giờ, nếu bạn đã xem các phép toán đằng sau ranh giới quyết định, bạn sẽ biết rằng tham số (x) không bị giới hạn trong hàm logistic, nó cũng đóng góp vào phương trình của ranh giới quyết định.

Nó rất giống với Hồi quy tuyến tính, xác định một hàm chi phí để tìm lỗi và sau đó thực hiện giảm độ dốc để cập nhật tham số và giảm thiểu hàm chi phí.

Tuy nhiên, chúng ta không thể sử dụng Hàm chi phí của Mô hình hồi quy tuyến tính.

Tại sao chúng ta không thể sử dụng hàm Chi phí của hồi quy tuyến tính?

Cố gắng sử dụng một hàm chi phí của mô hình Hồi quy tuyến tính bằng cách sử dụng Lỗi bình phương trung bình sẽ cho một hàm không lồi, hàm này sẽ cho một đồ thị có hình dạng kỳ lạ trông như thế này.


Biểu đồ này có nhiều điểm tối thiểu cục bộ khiến hàm chi phí rất khó đạt được mức tối thiểu toàn cầu và giảm thiểu sai số.


Điều này xảy ra bởi vì trong Hồi quy logistic chúng ta có hàm sigmoid là phi tuyến tính.

Đây là lý do tại sao hàm Cost cho Logistic Regression là:


Nếu bạn kết hợp hai phương trình trên thành một, Bạn sẽ nhận được một hàm lồi và hàm chi phí này sẽ giúp mô hình Hồi quy Logistic hội tụ về Tối thiểu Toàn cầu nhanh hơn.


Chắc hẳn bạn đang thắc mắc tại sao lại có dấu (-) âm trong hàm chi phí, Nếu bạn thấy, các giá trị có trong nhật ký sẽ là xác suất từ ​​0 đến 1, Vì vậy, giá trị của log1 là 0 và giá trị của log0 là âm (-) vô cùng. Vì vậy, các giá trị từ hàm chi phí sẽ luôn ở dạng âm và đó là lý do tại sao chúng ta thêm dấu âm (-) vào nó.

Xem thêm: Stand In Là Gì Và Cấu Trúc Cụm Từ Stand In Trong Câu Tiếng Anh

Bây giờ chúng ta đã biết hàm chi phí của Hồi quy logistic, hãy hiểu cách chúng ta giảm thiểu lỗi để có được mô hình hoạt động cao

Gradient Descent trong Logistic Regression

Gradient descent là một thuật toán tối ưu hóa được sử dụng để tìm các giá trị của các tham số (hệ số) của một hàm làm tối thiểu hóa một hàm chi phí (cost).

Để đọc thêm về nó và hiểu rõ hơn về Gradient Descent, tôi khuyên bạn nên đọc Blog của Jason Brownlee .

Bây giờ, bạn đã có trực giác về gradient Descent, bạn có thể hiểu tại sao chúng ta cần cập nhật trọng số để đạt mức tối thiểu toàn cầu.

Các bước tiếp theo bởi Gradient Descent để có được hàm chi phí thấp hơn:

Chúng ta hãy xem xét hàm logistic (sigmoid).


Ở đây, x = mx + b hoặc x = b0 + b1x

→ Ban đầu, giá trị của m và b sẽ bằng 0 và tốc độ học (α) sẽ được đưa vào hàm. Giá trị của tỷ lệ học tập (α) được lấy rất nhỏ, nằm trong khoảng 0,01 hoặc 0,0001.

Tốc độ học tập là một tham số điều chỉnh trong thuật toán tối ưu hóa xác định kích thước bước ở mỗi lần lặp trong khi tiến tới mức tối thiểu của hàm chi phí.

→ Sau đó, đạo hàm riêng được tính cho hàm chi phí được lấy. Sau khi tính toán, phương trình đã đạt được sẽ là.


Những ai quen thuộc với Giải tích sẽ hiểu được cách tính đạo hàm để đạt được phương trình này.

Nếu bạn không biết giải tích, đừng lo lắng, chỉ cần hiểu cách thức hoạt động của nó và sẽ là quá đủ để suy nghĩ trực quan về những gì đang xảy ra đằng sau hậu trường và những ai muốn biết quá trình tính toán thì hãy xem blog này hiển thị phép tính toán của hàm chi phí .

→ Sau khi các đạo hàm được tính toán, trọng số được cập nhật với sự trợ giúp của phương trình sau.


Nếu bạn đã xem qua Blog của Jason Brownlee, bạn có thể đã hiểu trực giác đằng sau sự giảm dần độ dốc và cách nó cố gắng đạt đến mức tối thiểu toàn cầu (Giá trị hàm chi phí thấp nhất).

Tại sao chúng ta phải trừ trọng số (m và b) với đạo hàm? Gradient cung cấp cho chúng ta hướng đi lên dốc nhất của hàm mất mát và hướng đi xuống dốc nhất ngược lại với gradient và đó là lý do tại sao chúng ta trừ gradient từ trọng số (m và b)

→ Quá trình cập nhật các trọng số sẽ tiếp tục cho đến khi hàm chi phí đạt đến giá trị lý tưởng bằng 0 hoặc gần bằng 0.

Bây giờ, sau khi bạn đã đạt được mô hình hoạt động tốt nhất. Hãy xem cách kiểm tra chất lượng của mô hình.

Đánh giá mô hình hồi quy logistic

Sau khi xây dựng mô hình, chúng tôi hiển nhiên phải kiểm tra xem mô hình của chúng tôi hoạt động tốt như thế nào, nó phù hợp với dữ liệu của chúng tôi như thế nào.

Một trong những cách tiếp cận để thực hiện điều này là Đo lường mức độ bạn có thể dự đoán biến phụ thuộc dựa trên tập hợp các biến độc lập mới.

AIC (Akaike Information Criteria): * AIC là công cụ ước tính mức độ phù hợp của mô hình. * Bất cứ khi nào chúng tôi tạo ra một mô hình, chúng tôi mất một số thông tin, không ai có thể tạo ra mô hình hoàn hảo. AIC ước tính lượng thông tin bị mất. * Giá trị của AIC càng thấp nghĩa là Thông tin bị mất càng ít có nghĩa là mô hình tốt hơn. * Việc thêm các biến vào mô hình sẽ không làm tăng giá trị của AIC. * Một trong những công dụng của AIC là nó giúp lựa chọn mô hình, chúng tôi có thể phù hợp với toàn bộ dữ liệu để đào tạo mô hình và so sánh các giá trị AIC của các mô hình khác nhau và chọn mô hình có Giá trị AIC tốt nhất. AIC = -2 / N * LL + 2 * K / N Trong đó, N là số lượng mẫu trong dữ liệu huấn luyện, LL là Khả năng ghi nhật ký của mô hình trên dữ liệu huấn luyện. và K là số tham số trong dữ liệu.

HỌC VUI VẺ !!!!!

Thích bài viết của tôi? Hãy cho tôi một cái vỗ tay và chia sẻ nó, vì điều đó sẽ thúc đẩy sự tự tin của tôi. Ngoài ra, tôi đăng các bài báo mới vào Chủ nhật hàng tuần để luôn kết nối với các bài viết trong tương lai về kiến ​​thức cơ bản của khoa học dữ liệu và học máy.

Xem thêm: Là Gì? Nghĩa Của Từ Orchid Là Gì Orchid Là Gì, Nghĩa Của Từ Orchid

Ngoài ra, hãy kết nối với tôi trên LinkedIn .


Japanese Spanish German French Thai Portuguese Russian Vietnamese Italian Korean Turkish Indonesian Polish Hindi

Tôi tin rằng tất cả chúng tôi đã ở đó. Muốn xem thứ gì đó, nhưng không biết chính xác nội dung sẽ xem… Chờ đã, tôi nghĩ bạn có một lựa chọn ở đây! Chà, có loạt phim này trên Netflix mà bạn bè của bạn đã bàn tán trong một thời gian.


Quy trình công việc học máy bao gồm tất cả các bước cần thiết để xây dựng mô hình học máy từ dữ liệu thô. Các quá trình này có thể được chia thành các giai đoạn chuyển đổi và đào tạo.


Trong hành trình liên tục tìm kiếm tài liệu để thu hút độc giả mới, tôi đã tìm đến nguồn. Sáu nhà văn hàng đầu của Medium.


Nếu bạn nghĩ rằng việc khỏe mạnh là điều khó khăn - hãy nghĩ lại. Khi khỏe mạnh, chúng ta thường nghĩ về những thói quen khó khăn, đau đớn.


Cây đa

Một bài thơ

Ngọc lục bảo thường xanh của lợi ích. * Mẫu vật sinh trưởng mãi mãi.


CSS: Đơn vị đo lường (px, em, rem, vw,%, v.v.)


Giới thiệu Tôi quyết định viết blog này với mong muốn khám phá thêm về tất cả các cách chúng ta có thể định kích thước mọi thứ bằng CSS. Với rất nhiều khả năng, bạn rất dễ cảm thấy choáng ngợp và bối rối.


"Dancing With the Stars": Cheryl Burke "Lucky" và "Thankful" vì đã hỗ trợ Cody Rigsby trong Sobriety Journey


Chuyên gia Cheryl Burke của "Dancing With the Stars" nói rằng cô ấy "may mắn" và "biết ơn" vì tình bạn và sự hỗ trợ của người bạn đời nổi tiếng Cody Rigsby.


"Dưới boong Địa Trung Hải": Lexi Wilson đã được cho biết cô ấy là "người tồi tệ nhất" đầu bếp Mathew đã gặp: Anh ấy có hối hận khi nói điều đó không?


Đầu bếp Mathew nói với Lexi Wilson rằng cô ấy là "người tồi tệ nhất" mà anh ấy từng gặp trong tập cuối cùng của "Below Deck Địa Trung Hải." Bất cứ hối tiếc?


"Dancing With the Stars": Brian Austin Green nói đùa, "Nếu tôi lộn xộn, tôi sẽ không ngạc nhiên nếu Sharna bỏ rơi tôi"


Thí sinh Brian Austin Green của Dancing With the Stars nói đùa rằng anh sẽ không ngạc nhiên nếu bạn gái Sharna Burgess "bỏ rơi anh" nếu anh gây rối.


"Luận tội: Câu chuyện tội phạm Mỹ": Monica Lewinsky nói 1 khoảnh khắc nói với cô ấy rằng cô ấy đang làm việc "với đúng người"


Monica Lewinsky lúc đầu không chắc chắn về "Impeachment: American Crime Story". Nhưng cô ấy đã lên tàu sau khi một bình luận trấn an cô ấy.


Văn phòng của nghị sĩ Thượng viện cung cấp quyền truy cập vào chuyên môn lập pháp không đảng phái và bí mật để giúp phát triển luật mới và hiểu biết về các quy tắc chi phối Thượng viện.