自拍偷区亚洲网友综合图片,亚洲av日韩av无码污污网站,亚洲高清一区二区三区电影,亚洲精品久久久久久久蜜臀老牛,中文字幕视频在线看

本科課程輔導(dǎo)

當(dāng)前位置:首頁 > 留學(xué)生課程輔導(dǎo) > 本科課程輔導(dǎo) > 探索性數(shù)據(jù)分析(EDA)的關(guān)鍵步驟及類型

探索性數(shù)據(jù)分析(EDA)的關(guān)鍵步驟及類型

發(fā)布時間:2023-10-16 12:06

數(shù)據(jù)分析涉及各種清理、轉(zhuǎn)換、分析和創(chuàng)建數(shù)據(jù)模型的流程,以生成具體、有意義的信息。這些都有助于做出重要的實時業(yè)務(wù)決策。探索性數(shù)據(jù)分析對所有企業(yè)都很重要。它允許數(shù)據(jù)分析師在得出結(jié)論之前對數(shù)據(jù)進(jìn)行分析。它還能確保獲得的結(jié)果是有效的,并適用于業(yè)務(wù)成果和目標(biāo)。這篇關(guān)于探索性數(shù)據(jù)分析的文章提供了探索性數(shù)據(jù)分析(EDA)的關(guān)鍵步驟及類型。
探索性數(shù)據(jù)分析(EDA)的關(guān)鍵步驟及類型

一、什么是數(shù)據(jù)科學(xué)中的探索性數(shù)據(jù)分析?

探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)科學(xué)中機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型用于提取相關(guān)特征和趨勢的技術(shù)之一。因此,EDA 已成為數(shù)據(jù)科學(xué)工作者的一個重要里程碑。本文討論了 EDA 的概念、含義、工具和技術(shù),以便為希望開始數(shù)據(jù)科學(xué)職業(yè)生涯的初學(xué)者提供完整的信息。文章還列舉了經(jīng)常有效使用 EDA 推動業(yè)務(wù)發(fā)展的行業(yè)。

二、EDA 在數(shù)據(jù)科學(xué)中的作用

數(shù)據(jù)科學(xué)領(lǐng)域在當(dāng)今的商業(yè)世界中非常重要,因為它通過分析收集到的大量數(shù)據(jù),為做出重要的商業(yè)決策提供了許多機(jī)會。要深入了解數(shù)據(jù),就必須從各個角度對其進(jìn)行研究。高效的操作能夠做出有意義和有用的決策,因此,EDA 在數(shù)據(jù)科學(xué)中發(fā)揮著不可估量的作用。

三、探索性數(shù)據(jù)分析的目的

探索性數(shù)據(jù)分析的總體目標(biāo)是產(chǎn)生有意義的見解,因此通常包括以下子目標(biāo):

識別和消除異常值;

確定時間和空間趨勢;

確定與目標(biāo)相關(guān)的模式;

提出假設(shè)并通過實驗進(jìn)行檢驗;

確定新的信息源.

四、EDA在數(shù)據(jù)科學(xué)中的作用

數(shù)據(jù)挖掘分析的作用基于對上述目標(biāo)的利用。一旦制定了數(shù)據(jù),所進(jìn)行的分析將確定模式和趨勢,這將有助于采取所需的適當(dāng)行動,以實現(xiàn)預(yù)期的業(yè)務(wù)目標(biāo)。由于我們希望每位經(jīng)理都能在特定的角色中執(zhí)行特定的任務(wù),因此我們希望適當(dāng)?shù)?EA 能夠為與特定業(yè)務(wù)決策相關(guān)的問題提供完整的答案。由于數(shù)據(jù)科學(xué)是關(guān)于建立預(yù)測模型的,因此模型必須考慮到最佳數(shù)據(jù)特征。這樣,EDA 就能確保有正確的模型和趨勢組件來訓(xùn)練模型,以實現(xiàn)正確的結(jié)果,如成功的配方。因此,在正確的數(shù)據(jù)上使用正確的工具執(zhí)行正確的 EDA 將有助于實現(xiàn)預(yù)期目標(biāo)。

五、探索性數(shù)據(jù)分析(EDA)的步驟

?EDA 的關(guān)鍵要素是進(jìn)行 EDA 所涉及的主要步驟。它們是

1.數(shù)據(jù)收集

如今,在人類生活的各個領(lǐng)域,如健康、體育、工業(yè)、旅游等,都會以各種形式產(chǎn)生大量數(shù)據(jù)。所有企業(yè)都知道通過正確分析數(shù)據(jù)充分利用數(shù)據(jù)的重要性。然而,這取決于通過調(diào)查、社交媒體和客戶反饋從不同來源收集必要的數(shù)據(jù)。如果不收集足夠的相關(guān)數(shù)據(jù),就無法采取進(jìn)一步行動。

2.發(fā)現(xiàn)并了解所有變量

在開始分析過程時,首先要關(guān)注可提供大量信息的可用數(shù)據(jù)。這些數(shù)據(jù)包含不同特征或特質(zhì)的變量值,有助于理解它們并獲得有價值的見解。這需要首先確定影響結(jié)果的重要變量及其潛在影響。這一步對最終結(jié)果至關(guān)重要。 p

3.清理數(shù)據(jù)集

下一步是清理數(shù)據(jù)集,其中可能包含空值和無關(guān)信息。需要刪除這些信息,以便數(shù)據(jù)只包含與目標(biāo)相關(guān)且重要的值。這不僅能縮短時間,還能降低進(jìn)行評估所需的計算能力。預(yù)處理涉及到所有方面,如歸零、異常值檢測、異常檢測等。

4.確定相關(guān)變量

確定變量之間的相關(guān)性有助于找出某一變量與另一變量之間的關(guān)系。相關(guān)矩陣法可以清楚地顯示不同變量之間的相關(guān)性,進(jìn)而幫助理解變量之間的內(nèi)在關(guān)系。

5.選擇合適的統(tǒng)計方法

正如我們在以下章節(jié)中所看到的,根據(jù)數(shù)據(jù)的大小、是分類數(shù)據(jù)還是數(shù)值數(shù)據(jù)、變量的類型以及分析的目的,可以使用不同的統(tǒng)計工具。應(yīng)用于數(shù)值結(jié)果的統(tǒng)計公式可以提供必要的信息,但圖形表示法更具吸引力,也更易于解釋。

6.結(jié)果的可視化和分析

分析結(jié)束后,需要仔細(xì)認(rèn)真地查看結(jié)果,以便正確解讀。數(shù)據(jù)的散點趨勢和變量之間的相關(guān)性為適當(dāng)修改數(shù)據(jù)參數(shù)提供了很好的啟示。數(shù)據(jù)分析人員應(yīng)具備必要的分析技能,并對所有分析技術(shù)有透徹的了解。獲得的結(jié)果將與該特定領(lǐng)域的數(shù)據(jù)保持一致,并適用于零售、醫(yī)療保健和農(nóng)業(yè)領(lǐng)域。

要掌握探索性數(shù)據(jù)分析,數(shù)據(jù)分析新手需要了解并實踐上述歐空局?jǐn)?shù)據(jù)科學(xué)步驟。了解有關(guān)數(shù)據(jù)科學(xué)訓(xùn)練營培訓(xùn)計劃的更多信息。

六、探索性數(shù)據(jù)分析的類型

在單變量分析中,結(jié)果是一個單一變量,所有收集到的數(shù)據(jù)都?xì)w于該變量。沒有因果關(guān)系。例如,12 個月的數(shù)據(jù)顯示了每個月生產(chǎn)的產(chǎn)品。在二元分析中,結(jié)果取決于兩個變量,例如工人的年齡,并與兩個變量(即工人的工資和每月支出)進(jìn)行比較。

在多元分析中,結(jié)果取決于兩個以上的變量,如產(chǎn)品類型和銷售數(shù)量,并與產(chǎn)品價格、廣告費用和折扣進(jìn)行比較。數(shù)據(jù)分析的變量可以是數(shù)字變量,也可以是分類變量。分析結(jié)果可以以數(shù)值、可視化或圖表的形式呈現(xiàn)。因此,還可進(jìn)一步分為非圖形和圖形。

1. 一維非圖形

這是實際使用的所有數(shù)據(jù)分析類型中最簡單的一種。顧名思義,單變量是指只考慮一個變量,并收集和研究該變量(即所謂的總體)的數(shù)據(jù)。非圖形單變量數(shù)據(jù)分析的主要目的是找出總體數(shù)據(jù)分布的細(xì)節(jié),并了解一些特定的統(tǒng)計參數(shù)。從分布角度評估的重要參數(shù)如下:

中心傾向: 這個術(shù)語指的是位于數(shù)據(jù)中心位置或中間區(qū)域的值。通常估算三個中心傾向參數(shù):平均值、中位數(shù)和模式。均值是數(shù)據(jù)中所有值的平均值,而模式是出現(xiàn)次數(shù)最多的值。中位數(shù)是其左右兩邊觀測值相等的平均值。

范圍:范圍是數(shù)據(jù)中最大值和最小值之間的差值,表示數(shù)據(jù)在頂部和底部偏離平均值的程度。

方差和標(biāo)準(zhǔn)差: 另外兩個有用的參數(shù)是標(biāo)準(zhǔn)差和方差。方差是一種離散度量,表示數(shù)據(jù)集中所有數(shù)據(jù)點的離散程度。它是最常用的離散度量,是每個數(shù)據(jù)點與平均值之間差值的平均平方,而標(biāo)準(zhǔn)差是標(biāo)準(zhǔn)差值的平方根。標(biāo)準(zhǔn)差的值越大,說明數(shù)據(jù)的離散程度越高,而標(biāo)準(zhǔn)差的值越小,說明有更多的值聚集在平均值附近。

2.一維圖形

本節(jié)中的圖表基于 UCI 數(shù)據(jù)庫中的汽車 MPG 數(shù)據(jù)集。下面是一些常見的一維圖表類型:

條形圖和數(shù)字圖:這是一種非常簡單但功能強(qiáng)大的數(shù)據(jù)分析方法,用于以簡潔的格式呈現(xiàn)定量數(shù)據(jù)。它表示數(shù)據(jù)集中的值,保持每個觀測值的完整性,但將它們分開作為莖(起始數(shù)),其余或結(jié)束數(shù)作為葉。但如今條形圖使用得更多。

條形圖(柱形圖): 這些圖表用于顯示分組和未分組的數(shù)據(jù)。x 軸顯示變量的值,y 軸顯示觀察次數(shù)或頻率。條形圖非常簡單,可以快速了解數(shù)據(jù),告知數(shù)據(jù)值,如中心傾向、方差、異常值等。條形圖是最簡單的基本圖表,它是一個柱形圖,其中每個柱形代表不同值的頻率,即數(shù)量或比例(觀察數(shù)與觀察總數(shù)之間的比率)。

條形圖有很多種,下面介紹其中的一些:

簡單條形圖:用于表示分類變量,使用矩形條,不同長度的條與變量值相對應(yīng)。

多條形圖或分組條形圖:分組條形圖是呈現(xiàn)多組數(shù)據(jù)項進(jìn)行比較的條形圖,其中使用一種顏色表示數(shù)據(jù)集中的特定系列。

百分比條形圖:這種條形圖以百分比的形式顯示每個觀測點的數(shù)據(jù)。下圖顯示的是帶有虛擬值的百分比條形圖。

餅圖:用于顯示數(shù)據(jù)中定量值的分布。如果數(shù)據(jù)集由分類變量組成,餅圖可以顯示它們之間的比較。此外,如果數(shù)據(jù)中有異常值,也可以很容易地識別出來。這些圖表在需要以百分比的形式進(jìn)行比較時非常有用,例如,25%、50% 和 75%(四分位數(shù))范圍內(nèi)的數(shù)值。

3.無圖表的多元圖表

不帶圖表的多變量數(shù)據(jù)探索性分析技術(shù)通常用于使用交叉表或統(tǒng)計數(shù)據(jù)顯示兩個或多個變量之間的關(guān)系。

對于分類數(shù)據(jù),制表法的擴(kuò)展稱為交叉制表法,非常有用。對于兩個變量,交叉制表的方法是制作一個雙面表,列標(biāo)題對應(yīng)于一個變量的編號,行標(biāo)題對應(yīng)于兩個相反變量的編號,然后填寫所有具有相同水平對的受試者的計數(shù)。

對于每個分類變量和定量變量,我們可以針對變量的每個水平分別生成定量變量的統(tǒng)計信息。

4.多元圖形

在多元圖形中,圖形用于顯示兩個或多個變量之間的關(guān)系。在這里,結(jié)果取決于兩個以上的變量,而引起變化的變量也可能不止一個。

常見的多元圖形有以下幾種:

(A) 散點圖

針對兩個定量變量的基本 EDA 制圖技術(shù)是散點圖,其中一個變量在 x 軸上,另一個變量在 y 軸上,因此作為數(shù)據(jù)集中每個案例的點。這種方法可用于雙變量分析。

B) 多元圖表

多變量圖是一種控制圖,用于控制兩個或多個相互關(guān)聯(lián)的過程變量。這在過程控制等情況下非常有用,工程師可以從使用多變量圖表中受益。這些圖表允許在一張圖表上同時檢查多個參數(shù)。使用多變量圖的一個重要優(yōu)勢是,它們有助于最大限度地減少業(yè)務(wù)流程控制圖的總數(shù)。使用 Seaborn 庫創(chuàng)建的配對圖就是多變量圖的一個很好的例子,因為它們有助于一次性直觀顯示整個數(shù)據(jù)集中所有數(shù)字變量之間的關(guān)系。

C) 執(zhí)行圖

執(zhí)行圖是隨時間繪制的數(shù)據(jù)折線圖。換句話說,執(zhí)行圖直觀地顯示了時間序列中的流程性能或數(shù)據(jù)值。與匯總統(tǒng)計相比,可視化隨時間變化的數(shù)據(jù)能產(chǎn)生更準(zhǔn)確的結(jié)果。趨勢圖或時間序列圖是運行圖的另一個名稱。下圖顯示了特定時期內(nèi)的虛構(gòu)銷售值。

D) 氣泡圖

氣泡圖是一種散點圖,在二維圖表上顯示幾個圓(氣泡)。它們用于評估三個或更多數(shù)字變量之間的關(guān)系。在氣泡圖中,每個點對應(yīng)一個數(shù)據(jù)點,每個點的變量值以不同的位置顯示,如水平、垂直、點的大小和點的顏色。

E) 熱圖

熱圖是多元數(shù)據(jù)的彩色圖形表示法,其結(jié)構(gòu)為列和行的矩陣。熱圖將相關(guān)矩陣轉(zhuǎn)換為顏色代碼,并繪制這些系數(shù),以直觀顯示變量之間的相關(guān)強(qiáng)度。這有助于找到最合適的特征,為機(jī)器學(xué)習(xí)建立精確的模型。

除上述技術(shù)外,EDA 還采用了 "分類或聚類分析 "技術(shù)。這是一種無監(jiān)督的機(jī)器學(xué)習(xí)形式,用于將輸入數(shù)據(jù)分類為某些類別或集群,這些類別或集群在不同組中表現(xiàn)出相似的特征。然后可用于在 EDA 中進(jìn)行重要解釋。

海馬課堂專業(yè)課程輔導(dǎo),輔導(dǎo)不滿意隨心退,試聽課全面升級,3500+嚴(yán)選碩博學(xué)霸師資,針對學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,課程輔導(dǎo)產(chǎn)品升級贈送考前保障,上課時間靈活安排,中英雙語詳細(xì)講解課程中的考點、難點問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識,補(bǔ)足短板。如果你對此還有疑問,或者有更多關(guān)于學(xué)業(yè)輔導(dǎo)方面需求的話,可以添加微信號:hmkt131聯(lián)系海馬課堂的Joye老師哦。

相關(guān)熱詞搜索: