資料探勘的概念,什麼是資料探勘?

2022-02-23 12:24:41 字數 5954 閱讀 1442

1樓:匿名使用者

資料探勘( data mining,簡稱dm),簡單地講就是從大量資料中挖掘或抽取出知識,資料探勘概念的定義描述有若干版本,以下給出一個被普遍採用的定義描述:

資料探勘,又稱為資料庫中知識發現(knowledge discovery from database,簡稱kdd),它是一個從大量資料中抽取挖掘出未知的、有價值的模式或規律等知識的複雜過程。 整個知識挖掘(kdd)過程是由若干挖掘步驟組成,而資料探勘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:

資料清洗(data clearning ),其作用就是清除資料噪聲和與挖掘主題明顯無關的資料;

資料整合(data integration ),其作用就是將來自多資料來源中的相關資料組合到一起;

資料轉換(data transformation ),其作用就是將資料轉換為易於進行資料才它掘的資料儲存形式;

資料探勘(data mining ),它是知識挖掘的一個基本步驟,其作用就是利用智慧方法挖掘資料模式或規律知識;

模式評佑( pattern evaluation ),其作用就是根據一定評估標準interesting measures)從挖掘結果篩選出有意義的模式知識;

知識表示(knowledge presentation ),其作用就是利用視覺化和知識表達技術,向使用者展示所挖掘出的相關知識。

2樓:美林資料

分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類。分類演算法的分類過程就是建立一種分類模型來描述預定的資料集或概念集,通過分析由屬性描述的資料庫元組來構造模型。

3樓:海同職座標**

資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

資料探勘流程:

定義問題:清晰地定義出業務問題,確定資料探勘的目的。

資料準備:資料準備包括:選擇資料–在大型資料庫和資料倉儲目標中 提取資料探勘的目標資料集;資料預處理–進行資料再加工,包括檢查資料的完整性及資料的一致性、去噪聲,填補丟失的域,刪除無效資料等。

資料探勘:根據資料功能的型別和和資料的特點選擇相應的演算法,在淨化和轉換過的資料集上進行資料探勘。

結果分析:對資料探勘的結果進行解釋和評價,轉換成為能夠最終被使用者理解的知識。

什麼是資料探勘?

4樓:cda資料分析師

簡單地說,資料探勘是從大量資料中提取或『挖掘』知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為『從資料中挖掘知識』,不幸的是它有點長。

許多人把資料探勘視為另一個常用的術語『資料庫中知識發現』或kdd的同義詞。而另一些人只是把資料探勘視為資料庫中知識發現過程的一個基本步驟。

資料探勘是一個用資料發現問題、解決問題的學科。

通常通過對資料的探索、處理、分析或建模實現。

我們可以看到資料探勘具有以下幾個特點:

基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料探勘的演算法都可以在小資料量上執行並得到結果。但是,一方面過小的資料量完全可以通過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。

隱含性:資料探勘是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的bi工具,例如報表和olap,完全可以讓使用者找出這些資訊。

新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料探勘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。

這只是一種誤解,不可否認的 是在一些資料探勘專案中,或者因為缺乏明確的業務目標,或者因為資料質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料探勘的確可以變成提升效益的利器。

5樓:野路子產品經理

給你分享一個pdf看看什麼是資料探勘

6樓:風_南

科技的快速發展和資料的儲存技術的快速進步,使得各種行業或組織的資料得以海量積累。但是,從海量的資料當中,提取有用的資訊成為了一個難題。在海量資料面前,傳統的資料分析工具和方法很無力。

由此,資料探勘技術就登上了歷史的舞臺。

資料探勘是一種技術,將傳統的資料分析方法與處理大量資料的複雜演算法相結合(圖1),從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用資訊和知識的過程。

那資料探勘能夠幹什麼?有哪些資料探勘技術?怎麼應用?

資料探勘技術應用廣泛,如:1. 在交通領域,幫助鐵路票價制定、交通流量**等。

2. 在生物學當中,挖掘基因與疾病之間的關係、蛋白質結構**、代謝途徑**等。3.

在金融行業當中,**指數追蹤、稅務稽查等方面有重要運用。4. 在電子商務領域,對顧客行為分析、定向營銷、定向廣告投放、誰是最有價值的使用者、什麼產品搭配銷售等。

可以說,有資料的方法,就有資料探勘的用武之地。

那資料探勘過程是什麼呢?如圖2:

資料探勘的任務主要分為一下四類,如圖3:

1.建模**:用因變數作用目標變數建立模型。

分為兩類:(1)分類,用於**離散的目標變數;(2)迴歸,用於**連續的目標變數。兩項任務目標都是訓練一個模型,使目標變數**值與實際值之間的誤差達到最小。

**建模可以用來判斷病人是否患有某種疾病,可以用於確定顧客是否需要某種產品,**交通流量。

2.關聯分析:用來發現描述資料中強關聯特徵的模式。

所發現的模式通常用特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有用的模式。關聯分析的應用包括使用者購買商品之間的聯絡、找出相關功能的基因組、表單**輸出下拉選單如圖4。

3.聚類分析:發現緊密相關的觀測值群組,使得與屬於不同簇的觀察值相比,同一簇的觀察值相互之間儘可能的類似。

聚類可用來對相關的顧客分組、給不同功能的基因分組、不同的癌症細胞系分組。

4.異常檢測:識別其特徵顯著不同於其他資料的觀測值。

這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點。換言之,一個好的異常點檢測模型必須具有高檢測率和低誤報率。

異常檢測的應用包括檢測欺詐、網路攻擊、疾病的不尋常模式。

資料探勘的定義

7樓:匿名使用者

就是從未知的大量資料中找到自己需要的知識。

8樓:白肚河蟹不讓說

嘿嘿,上面這位的回答就這麼一句但恰好錯了。

資料探勘是從大量資料中尋找到有價值有意義有趣事先未知的知識而不是從「未知的資料「中找到」自己需要的「知識。

資料當然是已知的。

可能找到的知識的結構決定於使用的方法資料模式。

而具體知識是不是「知識」,有沒有用,你需不需要,這不是演算法或資料探勘技術考慮的問題。而是實施者需要解決的問題。

就好像一本**裡取出詞彙、概念做成一個字典,這個過程是資料探勘。字典可能有關鍵字的頻率,可能有詞間的關係,但你拿這個結果如何解釋或者這個結果對你有什麼啟發,這是你的事情。

總之,資料探勘是個商業智慧加資料庫技術的被誇大的概念。實際不過是提供資料到可理解描述的抽象技術。如果想要拿來解決實際問題,那還是要專家來分析結果。

9樓:凱瑟喵精

技術層面:資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用資料

中,提取隱含在其中、人們事先不知道的、但又潛在有用的資訊和知識的過程。

商業層面:資料探勘是一種新的商業資訊處理技術,其主要特點是對商業資料庫中的大量

業務資料進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性資料。

資料探勘的任務

**任務:根據其它屬性的值**特定(目標)屬性的值,如迴歸、分類、異常檢測。

描述任務:尋找概括資料中潛在聯絡的模式,如關聯分析、演化分析、聚類分析、序列模

式挖掘。

10樓:美林資料

分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類。分類演算法的分類過程就是建立一種分類模型來描述預定的資料集或概念集,通過分析由屬性描述的資料庫元組來構造模型。

資料探勘中分類的定義是什麼

11樓:匿名使用者

2023年以後定義為支援任意維度和指標的切換,可以對已有的表樣切換欄位來進行自由分析。任意維度和指標切換的功能保障了當檢視分析的人員在檢視分析時,如果針對已有的表樣產生額外的分析需求或改變了已有的分析需求

12樓:匿名使用者

資料探勘(data mining-dm)是從存放在資料庫、資料倉儲、或其它資訊庫中的大量資料中挖掘有趣知識的過程川。資料探勘有時也稱作kdd, kdd(knowledge discovery in databases-kdd:知識發現)即是基於資料庫的知識發現,指的是從大型資料庫或資料倉儲中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的、易被理解的資訊。

實質上,這兩個概念的內涵大致相同,只是從不同的角度認識問題而已。譬如人工智慧的研究人員傾向於講kdd,而計算機和資訊科技專家通常說資料探勘。

什麼是資料探勘,或資料探勘的過程是什麼

13樓:

營銷大資料資訊服務的發展,指導了企業商業規劃,優化商業資源配置,提高商業營銷效率,實現了精準營銷。徵信大資料資訊服務的發展,有效解決了交易雙方信用資訊不對稱問題,提高了交易可靠性保障,讓商業活動發展更加守信和健康。網際網路金融大資料資訊服務的發展,縮減了網際網路金融運營成本,降低了普惠金融的發展門檻,有效解決了中小企業短期資金缺口問題,對傳統金融服務起到了有效補充

14樓:知於大資料

1.1 資料探勘的興起

1.1.1 資料豐富與知識匱乏

對資訊進行再加工,即進行更深入的歸納分析,從資訊中理解其模式,方能獲得更有用的資訊,即知識。在大量知識積累基礎上,總結出原理和法則,就形成了所謂智慧。

當前的尷尬境地:「豐富的資料」而「貧乏的知識」

1.1.2 從資料到知識

資料倉儲的形成:隨著資料量的增長,資料來源所帶來的各種資料格式不相容性,為來便於獲得決策所需資訊,就有必要將整個機構的資料以統一形式整合儲存在一起,這就形成了資料倉儲(data warehouse,dw)

olap分析過程是建立在使用者對深藏在資料中的某種知識有預感和假設的前提下,是在使用者指導下的資訊分析和知識發現過程。

智慧化自動分析工具:為適應變化迅速的市場環境,就需要有基於計算機與資訊科技的智慧化自動工具,來幫助挖掘隱藏在資料中的各類知識。這類工具能自身生成多種假設 ➡️然後用資料倉儲(or大型資料庫)中的資料進行檢驗或驗證 ➡️然後返回使用者最有價值的檢驗結果。

此外,這類工具還應能適應現實世界中資料的多種特性(量大、含噪聲、不完整、動態、稀疏性、異質、非線性等)

1.1.3 資料探勘(dm)的產生

2023年,在美國計算機年會上,提出了資料探勘(dm,data mining) 的概念,即通過資料庫抽取隱含的、未知的、具有潛在使用價值資訊的過程

整個知識發現過程是由若干重要步驟組成(資料探勘只是其中一個重要步驟):

1)資料清洗:清除資料噪聲和與挖掘主題明顯無關的資料

2)資料整合:將來自多資料來源中的相關資料組合到一起

3)資料轉換:將資料轉換為易於進行資料探勘的資料儲存形式

4)資料探勘:它是知識挖掘的一個重要步驟,其作用是利用智慧方法挖掘資料模式或規律知識

5)模式評估:其作用是根據一定評估標準從挖掘結果篩選出有意義的模式知識

6)知識表示:其作用是利用視覺化和知識表達技術,向使用者展示所挖掘出的相關知識

1.1.4 資料探勘解決的商業問題(案例)

客戶行為分析

客戶流失分析

交叉銷售

欺詐檢測

風險管理

客戶細分

廣告定位

市場和趨勢分析

資料探勘是什麼,什麼是資料探勘?

資料探勘是從大量的 不完全的 有噪聲的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。資料探勘流程 定義問題 清晰地定義出業務問題,確定資料探勘的目的。資料準備 資料準備包括 選擇資料 在大型資料庫和資料倉儲目標中 提取資料探勘的目標資料集 資料預處理 進...

請問資料探勘和資料分析有本質的區別嗎

資料探勘和其他資料分析的區別 1.資料探勘和統計的區別 統計著重於驗證和測試假設,也就是說在你開始分析前你知道模式或模型是什麼 資料探勘則著眼於生成假設以及在沒有指導的情況下發現新模式。這也就是目前國內很多公司都有自己的統計分析平臺,比如關於erp crm 和業務的統計分析平臺,這些統計分析平臺都和...

資料探勘中分類和迴歸的區別是什麼

單純就這句話而言不能說錯,只是不完全。分類是指一類問題,而回歸是一類工具。分類的目的在於給物件按照其類別打上相應的標籤再分門別類,而回歸則是根據樣本研究其兩個 或多個 變數之間的依存關係,是對於其趨勢的一個分析 分類的標籤如果是表示 離散的 有排序關係的類別時,比如說 好 較好 一般 這樣的時候,也...