題:
使用無法針對測量進行驗證的模型是否有價值?
user6784
2015-01-05 05:36:21 UTC
view on stackexchange narkive permalink

說,我們有一個描述物理或動力系統的模型,例如水文模型。如果模型結果與模擬量的測量結果不匹配,即模型驗證失敗,那麼將模型用於其他情況或應用是否有任何價值?

我認為您對“校準”一詞的理解不符合我的理解。在建模中(與其餘科學相反),它通常是指將輸入參數調整到模型(通常是無法直接測量的參數),直到模型的預測與觀察結果匹配為止。因此,我不確定模型將如何“失敗校準”,除非可能無法獲得良好的匹配。
他似乎在問:如果結果沒有通過某種意義上的檢驗,是否有任何分析的理由?
我根據自己的猜測來編輯問題的目的是什麼。如果有的話,請編輯更多詳細信息。投票重新開放。
Downvote撤消了投票並決定重新開放-對我來說,現在這是一個明確且非常相關的問題。
最初的問題已經丟失。...在建模過程中,校準過程必須具有與測試類似的通過/失敗標準。如果未達到一定的可靠性水平,則模型校準將失敗。以測試分數為例,如果一個學生獲得40%的學生而另一個學生獲得30%的學生都取得了成績,但都由於成績不低於50%而均以失敗告終。我最初的問題是,如果模型不符合可靠性標準,那麼從校準到驗證模型是否有任何價值?
@user6784,例如進行計算機建模可靠性檢查是有原因的。因此,除非您真的知道自己在做什麼,否則繼續下一步似乎並不明智。
您在@user6784中說:“在建模過程中,校準過程必須具有通過/失敗標準”。 IME根本不是這樣。在參與了數十次校准後,包括與該領域的一些世界專家合作,我從未見過將校準結果判斷為通過/失敗二進制的情況。
@EngergyNumber我可以看到我使用的措詞是令人誤解的。具有可靠性標準經常被用作評估模型性能的方法的一部分。正如我在解釋結果時指出的那樣,可接受性標準很重要。
@user6784您所描述的校準似乎是我認為是驗證的東西。也許您可以澄清一下您認為兩者之間的區別是什麼?話雖如此,user6784顯然不滿意對他的問題所做的編輯,並且可能不應該進行編輯,因為它假設了他們的意圖。
-1
是的,我同意這個問題引起了很多反響。我可以重新發布一個改進的問題。
在針對測量進行驗證時,是否所有模型都不會(在某種程度上)失敗?因此,錯誤但有用的模型的重言式。
六 答案:
410 gone
2015-01-06 06:39:46 UTC
view on stackexchange narkive permalink

已故的喬治·Box(George Box)有句著名的話:

所有模型都是錯誤的。某些模型有用

所有模型都是錯誤的。

這很重要。

所有模型都是錯誤的。

在我們感興趣的任何實際系統中,系統唯一準確的模型就是系統本身。其他任何簡化都給出錯誤的答案。

某些模型很有用。

這也很重要。

某些模型可幫助我們構建有關不確定性(H / T尼爾·斯特拉坎教授)

某些模型使我們能夠測試“假設情況”,並觀察相對變化可能是什麼。現在,在現實世界中,模型無法解釋的外在影響將意味著實際結果會有所不同:但是,如果模型能夠充分說明相對變化的程度,我們仍然可以基於模型的判斷。甚至當涉及令人討厭的事物(例如湍流)時。

一些模型使我們能夠洞悉系統的緊急屬性:很多真正有趣的問題是緊急屬性,從基本角度看並不一定很明顯系統規則,以及我們可以獲得的任何見解都是有價值的。

一些模型使我們能夠在我們無法進行實驗的系統上進行實驗。儘管我們知道模型是錯誤的,但它們至少可以給我們指明可能結果的範圍。

這並不是要捍衛使用不良模型來進行不良工作。我的領域裡有太多東西了,我不喜歡它。正如Simon W所說,可以測試模型以查看它們是否適合特定目的。在已知不適用的情況下繼續使用模型 ,是騙術,而不是學術界。

所有模型都是錯誤的,當然,[大模型]除外。
David Hammen
2015-01-07 00:49:24 UTC
view on stackexchange narkive permalink

答案很大程度上取決於模型失敗的地方。如果它在某些情況下非常準確,而在另一些情況下非常不准確,則該模型仍可以在已知非常精確的那些情況下使用。

牛頓力學就是一個很好的例子。眾所周知,牛頓力學作為通用模型是錯誤的(有時是非常錯誤的)。利用牛頓原理建立對撞機來研究相對論碰撞產生的量子事件沒有多大意義。另一方面,牛頓力學在塵世事件的普通,日常世界中表現良好。我們仍然使用牛頓力學來搭建橋樑。在橋設計中調用廣義相對論是完全愚蠢的。

如果模型在任何地方都不起作用,或者如果模型產生合理結果的時間間隔消失得很小怎麼辦?在這種情況下,模型不是很好。一個模型需要有一定的空間,可以接受的結果甚至具有有限的適用性。

farrenthorpe
2015-01-06 05:42:56 UTC
view on stackexchange narkive permalink

是的,有價值。

1)通常,我們使用模型來檢查我們自己對流程的理解。如果模型是在包括所有已知因素的情況下構建的,則可能仍無法產生可通過測量驗證的結果。當模型無法重現現象時,可以使用測試用例來評估模型的哪些部分需要進一步開發。

2)有時系統太複雜而無法準確建模(或者也許有太多初始條件或邊界條件中的許多未知數)。儘管模型可能無法重現所測量的絕對值,但仍可能能夠產生現實的動態方差。因此,該模型對於研究所涉及的動態過程之間的關係仍然有用。有時,這就是我們發現通常不是模型過程直接結果的次要影響的方式。

Semidiurnal Simon
2015-01-06 19:41:14 UTC
view on stackexchange narkive permalink

略有不同的傾斜:

正如能數所指出的那樣,所有模型都以一種或另一種方式是錯誤的。一個完全準確的現實模型將與現實一樣複雜,因此始終需要進行一些簡化。這意味著不可能有任何有用的模型,其各個方面的預測都可以完全準確地預測(可能是偶然的除外)。

驗證模型不是一個用“說出這個模型正確”的過程。是/否答案。相反,應該是關於

  1. 該模型必須滿足的確定標準,該模型對於給定的目的有用
  2. 評估該模型是否滿足那些標準
  3. ol>

    。如果該模型無法通過一個應用程序的驗證,那麼對於另一個應用程序仍然可能有用。

    一些驗證條件不同的示例,以區域海洋模型為例:

    一個明顯的選擇是對當前速度或水位的預測是否最重要。即使選擇其中之一,評估預測的方式也可能會有所不同。合理的默認設置可能是在多個位置的每個時間點評估實測水位與實測水位之間的擬合度,如果偏差和RMSE等度量值低於定義的閾值,則接受模型。但是,以下是兩個可以證明採用不同方法的特定方案的示例:

  • NOAA運行的模型的主要應用是為導航設備提供深度信息。對他們而言,關鍵的統計數據不是其模型的一般準確性,而是模型高估水位的頻率-因為這種形式的錯誤可能導致船隻擱淺。 [1]

  • Vested等人(1995年)[2]給出了一個可以提供洪水預警的風暴潮模型的例子。它不是針對所有水位預測的準確性進行測試,而是針對其 peak 水位預測的準確性進行了測試,因為這些在操作中很重要。

[1] NOAA 用於評估運行中的預報和預報水動力模型系統的NOS標準,馬里蘭銀2003年10月,noaa美國國家海洋和大氣管理局, no> NOAA CS 17 ,2003年10月

[2] HJ Vested,JW Nielsen,HR Jensen和KB Kristensen,“北海和丹麥帶水力運行動態預測系統的技能評估”,《沿海海洋模型,第一卷47,D。R. Lynch和A. M. Davies,編輯。華盛頓特區:美國地球物理聯合會,1995年,第373-396頁。

taupunkt
2015-01-06 15:02:27 UTC
view on stackexchange narkive permalink

因為已經有兩個答案在討論進一步分析中的可能優點,所以我只需要添加硬幣的另一面即可。最好還是將模擬視為失敗,而不要對其進行任何進一步分析。

如果最新的技術是類似的模擬能夠再現您所提到的這些實驗值,並且模擬也可以重現您要查看的值。在這種情況下,僅嘗試找出為什麼無法重現實驗測試值才有意義。如果您不想花很多時間來開發模型,則將其完全刪除;沒有人會相信您的結果。

在我看來,信任是關鍵。正如前面的答案中提到的,對於模擬僅給出(較差的)實驗結果的估計並不少見。但是,在這些情況下,重要的是您可以檢查為什麼仍然信任要獲得的結果。

老實說,我確實以這樣的方式閱讀了您的問題,即您沒有充分的理由對進一步的結果充滿信心。如果是這種情況,我的建議是退後一步,首先考慮您是否可以信任他們。要做到這一點,沒有一般性的答案會幫助您;它非常取決於您的系統以及這種模擬的最新狀態。

naught101
2015-01-08 12:58:13 UTC
view on stackexchange narkive permalink

好問題,有一些有趣的答案。

我只想添加我最喜歡的一篇論文的摘要,該論文的作者是Oreskes,Shrader-Frechette,& Beiitz(1994):

不可能對自然系統的數值模型進行驗證和驗證。這是因為自然系統永遠不會封閉,並且模型結果總是非唯一的。可以通過觀察與預測之間的一致性證明來確認模型,但是確認本質上是部分的。從邏輯上講,由於必然的謬誤和對自然現象的不完全獲取,無法進行全面確認。模型只能以相對的方式進行評估,其預測價值始終值得商question。模型的主要價值是啟發式的。

基本上,在復雜的系統中,您永遠都不會期望模型的結果與觀測到的數據相匹配-到處都有噪聲,但是這些系統也包含確定性混沌。您可以模擬這樣一個系統的行為,但是不能模擬結果。即使您的模型是完全正確的,但使用正確的輸入,您也不會獲得相同的行為,因為即使是最小的值截斷也會最終導致明顯的差異。

此外,即使您這樣做獲得確切結果您可能不知道由於正確的原因獲得了正確的結果-等價性是一個真正的問題。 尤其是在具有兩個以上相互影響的校準參數的模型中。不能保證校準過程會為您提供更好的參數,您只能確保它會為您提供更好的校準數據結果 。甚至使用具有實際獨立數據(稀有)的交叉驗證方法(培訓和測試)進行的校準也可能會失敗,因為由於上述原因,驗證部分可能會失敗。

無論如何,對此主題感興趣的每個人都應該閱讀該論文,我敢肯定我在這裡漏了點。這有點繁瑣,但這是因為有一些概念-這篇論文實際上讀起來很愉快。

參考文獻

  • Oreskes,N.,Shrader-Frechette ,K。& Beiitz,K.,1994年。《地球科學中數值模型的驗證,確認和確認》。科學,263(5147),第641–646頁。可用於: ProQuest


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...