Google 悄悄更新了他們的 Google 搜索中心文檔,指出他們現(xiàn)在正在為 .csv 文件建立索引。這開辟了一種新的爬網(wǎng)方式,或者如果發(fā)布商不希望其 .csv 文件被爬網(wǎng),則可能意味著需要更新 robots.txt 以排除這些文件。
CSV
CSV文件是以表格格式保存數(shù)據(jù)的文本文件,可以顯示為電子表格。CSV文件包含純文本數(shù)據(jù),這意味著 CSV 文件不包含字體等樣式元素,也不包含圖像或鏈接。它們對于執(zhí)行一些操作非常有用,例如上傳 URL 列表以供爬行到 Screaming Frog 等軟件。但它們對于組織電子表格中的數(shù)據(jù)也很有用。
CSV 文件索引是新功能
Google 索引 CSV 文件的能力是一項新功能,因為在 Google 上搜索 CSV 文件的“文件類型”當前不會返回 CSV 文件。
目前,如下搜索不會返回 CSV 文件:
Filetype:csv site:.gov
Filetype:csv site:.edu
Filetype:csv site:.com
Google 已經(jīng)間接使用了 CSV 文件
Google 的數(shù)據(jù)集搜索外觀已經(jīng)使用了 CSV 文件,但顯然僅在使用結(jié)構化數(shù)據(jù)進行描述時才使用。Google 舊開發(fā)人員文檔中的數(shù)據(jù)集結(jié)構化數(shù)據(jù)文檔(可在 Archive.org 上查看)指出,CSV 文件是出現(xiàn)在數(shù)據(jù)集搜索功能中的可接受標準。使用表格數(shù)據(jù)作為搜索外觀可以追溯到 2018 年,當時谷歌宣布,當數(shù)據(jù)包含結(jié)構化數(shù)據(jù)時,他們將在搜索中顯示此類數(shù)據(jù)。
根據(jù)原始文檔:
“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“當您提供支持信息(例如數(shù)據(jù)集的名稱、描述、創(chuàng)建者和分發(fā)格式)作為結(jié)構化數(shù)據(jù)提供時,更容易找到數(shù)據(jù)集......
Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:
A table or a CSV file with some data包含一些數(shù)據(jù)的表格或 CSV 文件
An organized collection of tables有組織的表格集合
A file in a proprietary format that contains data包含數(shù)據(jù)的專有格式的文件
A collection of files that together constitute some meaningful dataset共同構成一些有意義的數(shù)據(jù)集的文件集合
A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式數(shù)據(jù)的結(jié)構化對象,您可能希望將其加載到特殊工具中進行處理
Images capturing data圖像捕獲數(shù)據(jù)
Files relating to machine learning, such as trained parameters or neural network structure definitions與機器學習相關的文件,例如訓練參數(shù)或神經(jīng)網(wǎng)絡結(jié)構定義
Anything that looks like a dataset to you”?任何對你來說看起來像數(shù)據(jù)集的東西”
Google 在 2022 年更新了上述文檔,并將其重定向到新的搜索中心文檔。更新后的文檔更清楚地表明,Google 依賴結(jié)構化數(shù)據(jù)在其數(shù)據(jù)集搜索外觀中使用 CSV 文件。但這一變化是否意味著 Google 最終將抓取 CSV 文件并將其用于搜索外觀(除了結(jié)構化數(shù)據(jù)中標注的表格數(shù)據(jù))?
這就是當前文檔的解釋:
“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“當您以結(jié)構化數(shù)據(jù)的形式提供支持信息(例如數(shù)據(jù)集的名稱、描述、創(chuàng)建者和分發(fā)格式)時,更容易找到數(shù)據(jù)集。
Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的數(shù)據(jù)集發(fā)現(xiàn)方法利用了 schema.org 和其他元數(shù)據(jù)標準,這些標準可以添加到描述數(shù)據(jù)集的頁面中......
Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:
A table or a CSV file with some data…”包含一些數(shù)據(jù)的表格或 CSV 文件……”
Google 索引 CSV 與最近更新相關嗎?
核心算法更新的定義是谷歌對其核心算法進行“重大”和“廣泛的改變”。CSV 文件的索引和核心算法的更新幾乎同時發(fā)生,這可能是一個巧合。但值得考慮的是,Google 是否改進了其抓取引擎,使其能夠索引 CSV。
整理翻譯作品,原作者:Roger Montti
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯(lián)系我們。( 版權為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學習資料。
現(xiàn)在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)