產銷履歷資料集 - 科學方法

這篇文我放了很久。遲遲沒有進展，也整理不出重點來。我決定先發出來，看會不會一發佈就想通關鍵。

年前我去超市買菜。萵苣不論大小一包 22 元，我挑了一顆大的。自助結帳時，機器提示：「請將未結帳的物品移離檯面。」我拿起又放下萵苣和兩瓶一公升皂豆漿，機器：「總重量 24xx 克，超過預期的 2250 克。請呼叫服務人員。」我只好去人工結帳。

想是萵苣設定一包 250 克重，超重的萵苣也只能當一顆賣。因為我之前買 24 元的萵苣苗卻種得稀稀落落，我認真研究了一下買到的這顆萵苣。產銷履歷顯示 2025/12/14 定植到 2026/01/24 採收，只隔了 41 天。時間跟我大半重疊，所以我猜我家種不好並非氣溫太低所致，而是因為陽光不足。

產銷履歷推動近二十年，身為消費者，這是我第一次實際掃描產品上的 QR 查詢生產記錄。一查發現蠻好玩的，產銷履歷不僅有農糧產品，也涵蓋水產、加工品……，支援的品項可以當作台灣物產博物館。（進口貨物產博物館可參考輸出入貨品分類表）

產品的每個「生產批次」會記錄產品名稱、生產者、驗證機構、原料、包裝日期等資訊。這些資訊都是每天記錄，包裝時系統就只是打包所有資訊並申請一個追溯號碼而已。

我請 AI 幫我爬產銷履歷資料庫到我的電腦，想來發掘公開的祕密。有沒有什麼產品的檢驗被一間公司攏斷？有沒有什麼產銷班一次休耕十年？之類的……既然我剛用 AI 爬完資料，視窗還沒關，自然是先叫 AI 去發掘，而不是我自己下 SQL。

請 AI 「Find me 5 fun facts from the data」。它給了許多純統計的資訊，如：「最多生產批次的產品是芭樂」「花東製米是最多生產批次的單一生產者」等…
我修正指示，請它考慮時空間特性。它依指示給了五項如：「雲林的產銷履歷數佔全臺 30%，多於第二到四名加總」「屏東產蛋、花蓮產米…」等…
因為 AI 給的五項中，其中一項有點重複，所以我請它再找一項取代。由於只找一項，我就盯著 AI 跑完。結果 AI 二話不說，寫腳本分析出「用最多原料的單一生產批次是什麼？是鳳梨汁！」就當作第五個 Fun Fact 給我。

目睹「query + data = fun fact」這套流程後，我愣住了。心想：「這算哪門子的 fun fact？這樣查下去，不管資料長怎樣，一定會有結果呀，這樣哪裡 fun 了？好歹查十項不同數值，選結果最意料之外的當 fun fact 吧？」

想著想著卻又有點心虛，「查十項不同數值，選結果最意料之外的。」這樣查查查，查下去，也一定會有結果呀。這樣有提升 fun 的層次嗎？原來我使喚 AI 做事時，並不知道我自己要的 fun 具體是什麼。真是文明病。

類似的問題，除了 fun 之外，也可以問

以上詞彙各有其義，可若要我舉例解釋，好像又差不多……大概就是

從「與既有資訊迥異」來看，「查十項不同數值，選結果最意料之外的。」確實引進了世界上既有的資訊，對於趣味程度有些幫助。雖然我的意料和 AI 的意料可能不盡相同，但至少我可以得到對 AI 而言有趣的結果。

這種純觀察統計（而非設計實驗量測）的做法好像比較常見於社會科學。也是我小時候鄙視文組的原由：設計問卷、收數據、跑分析、寫論文。即使問卷亂發、分析方式不對，整套組合執行下來也一定會有數據。例如：「臺灣籍單次性交易價金集中於新臺幣 3500 元」。由誰去做都能得到一個數字，這有什麼難？

而隨著我年紀增長，感受到生命有限，漸漸願意感謝這些人。不管他們設計的測量流程是好是壞，他們都生出了一些資源來跑這套測量流程，並據實報告量測結果和測量流程。這些製造量測結果（提供算力）的人，可能比設計完美流程（寫出好程式）的人還要偉大。

話又說回來，感謝尊重是一回事，我還是想當做出經典的人，而不是製造測量結果的人。

那究竟 fun 的程度該怎麼定義呢？有辦法比較嗎？

我目前覺得：

在最低的層次上，fun 度跟資訊熵是差不多的概念，資訊量越大越 fun 度越高。在資訊熵層次之上，則是對資訊熵或量測方法的分析，我不確定這種分析比較是不是也能（純）量化。

翻譯成數學語：

fun 度是完備的嗎？