精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

Google 悄悄更新了他們的 Google 搜索中心文檔,指出他們現(xiàn)在正在為 .csv 文件建立索引。這開辟了一種新的爬網(wǎng)方式,或者如果發(fā)布商不希望其 .csv 文件被爬網(wǎng),則可能意味著需要更新 robots.txt 以排除這些文件。

CSV

CSV文件是以表格格式保存數(shù)據(jù)的文本文件,可以顯示為電子表格。CSV文件包含純文本數(shù)據(jù),這意味著 CSV 文件不包含字體等樣式元素,也不包含圖像或鏈接。它們對于執(zhí)行一些操作非常有用,例如上傳 URL 列表以供爬行到 Screaming Frog 等軟件。但它們對于組織電子表格中的數(shù)據(jù)也很有用。

CSV 文件索引是新功能

Google 索引 CSV 文件的能力是一項新功能,因為在 Google 上搜索 CSV 文件的“文件類型”當前不會返回 CSV 文件。

目前,如下搜索不會返回 CSV 文件:

  • Filetype:csv site:.gov

  • Filetype:csv site:.edu

  • Filetype:csv site:.com

Google 已經(jīng)間接使用了 CSV 文件

Google 的數(shù)據(jù)集搜索外觀已經(jīng)使用了 CSV 文件,但顯然僅在使用結(jié)構化數(shù)據(jù)進行描述時才使用。Google 舊開發(fā)人員文檔中的數(shù)據(jù)集結(jié)構化數(shù)據(jù)文檔(可在 Archive.org 上查看)指出,CSV 文件是出現(xiàn)在數(shù)據(jù)集搜索功能中的可接受標準。使用表格數(shù)據(jù)作為搜索外觀可以追溯到 2018 年,當時谷歌宣布,當數(shù)據(jù)包含結(jié)構化數(shù)據(jù)時,他們將在搜索中顯示此類數(shù)據(jù)。

根據(jù)原始文檔:

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“當您提供支持信息(例如數(shù)據(jù)集的名稱、描述、創(chuàng)建者和分發(fā)格式)作為結(jié)構化數(shù)據(jù)提供時,更容易找到數(shù)據(jù)集......

Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:

  • A table or a CSV file with some data包含一些數(shù)據(jù)的表格或 CSV 文件

  • An organized collection of tables有組織的表格集合

  • A file in a proprietary format that contains data包含數(shù)據(jù)的專有格式的文件

  • A collection of files that together constitute some meaningful dataset共同構成一些有意義的數(shù)據(jù)集的文件集合

  • A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式數(shù)據(jù)的結(jié)構化對象,您可能希望將其加載到特殊工具中進行處理

  • Images capturing data圖像捕獲數(shù)據(jù)

  • Files relating to machine learning, such as trained parameters or neural network structure definitions與機器學習相關的文件,例如訓練參數(shù)或神經(jīng)網(wǎng)絡結(jié)構定義

  • Anything that looks like a dataset to you”?任何對你來說看起來像數(shù)據(jù)集的東西

Google 在 2022 年更新了上述文檔,并將其重定向到新的搜索中心文檔。更新后的文檔更清楚地表明,Google 依賴結(jié)構化數(shù)據(jù)在其數(shù)據(jù)集搜索外觀中使用 CSV 文件。但這一變化是否意味著 Google 最終將抓取 CSV 文件并將其用于搜索外觀(除了結(jié)構化數(shù)據(jù)中標注的表格數(shù)據(jù))?

這就是當前文檔的解釋:

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“當您以結(jié)構化數(shù)據(jù)的形式提供支持信息(例如數(shù)據(jù)集的名稱、描述、創(chuàng)建者和分發(fā)格式)時,更容易找到數(shù)據(jù)集。

Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的數(shù)據(jù)集發(fā)現(xiàn)方法利用了 schema.org 和其他元數(shù)據(jù)標準,這些標準可以添加到描述數(shù)據(jù)集的頁面中......

Here are some examples of what can qualify as a dataset:以下是一些符合數(shù)據(jù)集資格的示例:

A table or a CSV file with some data…”包含一些數(shù)據(jù)的表格或 CSV 文件……”

Google 索引 CSV 與最近更新相關嗎?

核心算法更新的定義是谷歌對其核心算法進行“重大”和“廣泛的改變”。CSV 文件的索引和核心算法的更新幾乎同時發(fā)生,這可能是一個巧合。但值得考慮的是,Google 是否改進了其抓取引擎,使其能夠索引 CSV。


整理翻譯作品,原作者:Roger Montti



點贊(1) 打賞

評論列表 共有 0 條評論

暫無評論

服務號

訂閱號

備注【拉群】

商務洽談

微信聯(lián)系站長

發(fā)表
評論
立即
投稿
返回
頂部