哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌發(fā)布查找在線數(shù)據(jù)的搜索引擎Dataset Search

KIyT_gh_211d74f ? 來源:未知 ? 作者:胡薇 ? 2018-09-11 16:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9 月 5 日,谷歌發(fā)布了一個幫助研究者查找在線數(shù)據(jù)的免費搜索引擎 Dataset Search。谷歌表示,該引擎面向「科學家、數(shù)據(jù)記者、數(shù)據(jù)極客等人群」。該引擎有助于促進數(shù)據(jù)的開放利用和重復利用。

Dataset Search 與谷歌的其他專用搜索引擎(如用于搜索新聞和圖像的引擎,以及 Google Scholar 和 Google Books)一樣可以免費使用,它基于擁有者對文件和數(shù)據(jù)庫的分類方式來查找文件和數(shù)據(jù)集。該引擎讀取文件內容的方式與搜索引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數(shù)據(jù)運動的發(fā)展,這一運動旨在實現(xiàn)數(shù)據(jù)的開放利用和重復利用。

政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源數(shù)據(jù)資源庫,包含了數(shù)百萬個數(shù)據(jù)集。

但那些想知道哪些類型的數(shù)據(jù)可用,或者那些希望定位已經存在的數(shù)據(jù)的研究者,通常依賴于口耳相傳的信息。來自加州山景城的 Google AI 計算機科學家 Natasha Noy 說。

對于那些處于研究生涯早期階段且還沒有建立專業(yè)聯(lián)系網絡的研究者而言,這個問題尤其嚴重,Noy 說。這對于那些做交叉學科研究的人而言也是個嚴重的缺陷。例如,流行病學家需要訪問氣候數(shù)據(jù),其可能與某種病毒的傳播相關。

分類搜索

2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介紹了解決該問題的策略。

典型的搜索引擎分兩個階段運行。第一個階段是通過在互聯(lián)網上持續(xù)搜索來索引可用網頁。第二個階段是對索引網頁進行排序,以使用戶輸入搜索詞時,搜索引擎能夠按相關度排序來提供搜索結果。

Noy 和 Brickley 寫道,為了幫助搜索引擎索引現(xiàn)有數(shù)據(jù)集,擁有數(shù)據(jù)集的人應該使用一個叫作 Schema.org 的標準化詞匯表來「標記」數(shù)據(jù)集,Schema.org 是谷歌和另外三個搜索引擎巨頭(微軟、雅虎和 Yandex)一起發(fā)起的項目,由 Brickley 管理。谷歌團隊還開發(fā)了一種特殊算法來對搜索結果中的數(shù)據(jù)集進行排序。

由于谷歌在網頁搜索中的主導地位,谷歌正在快速轉入數(shù)據(jù)生態(tài)系統(tǒng)的消息刺激主要搜索引擎巨頭進入該戰(zhàn)場,對元數(shù)據(jù)進行標準化處理,倫敦數(shù)據(jù)共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團管理,該集團也對 Nature 的出版公司持有大量股份。)

「到 11 月,我們接觸的所有大學的數(shù)據(jù)都已經標記完成。我認為這對學界的開放數(shù)據(jù)而言是一項重要變革。」Hahnel 說道。

Hahnel 認為,融資機構有時強制要求研究數(shù)據(jù)必須可獲取,而只要信息能夠高效獲取,他們就能達到其最終目的?!高@使得投資機構一直嘗試做的事合法化?!?/p>

谷歌為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。谷歌表示這個項目能夠帶來下列好處:

形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);

為科學家提供相應平臺,方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。

搜索試驗

目前谷歌已經正式對外測試開源數(shù)據(jù)集搜索引擎,用戶在鍵入數(shù)據(jù)集名稱或關鍵信息后,該搜索引擎會給出一系列數(shù)據(jù)源列表,每一個數(shù)據(jù)源都會有簡要的介紹,例如更新日期、作者、版權和內容說明等。值得注意的是,除了數(shù)據(jù)集資源,該搜索引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中,我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜索數(shù)據(jù)集,發(fā)現(xiàn)了一些很有意思的結果。

首先我們檢索了十分常用的圖像分類數(shù)據(jù)集 CIFAR-10,該數(shù)據(jù)集包含 10 個類別共 60000 張 32x32 的彩色圖像,且分為 50000 張訓練圖像和 10000 張測試圖像。搜索結果共給出了 9 項來源,包括數(shù)據(jù)集、預訓練模型和對比結果。

例如在排名第一的搜索結果中,數(shù)據(jù)集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中,除了給出該數(shù)據(jù)集的簡要信息(包括引用此數(shù)據(jù)集的論文),它甚至還展示了該數(shù)據(jù)集的使用指南。例如,如下展示頁介紹了該數(shù)據(jù)集在 Keras 的使用方法:

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

點擊第一條數(shù)據(jù)源就能跳轉到對應的 Kaggle 頁面,下載和額外信息都展示在原頁面中。

在采用關鍵詞「Object Detection」進行搜索的過程中,我們會發(fā)現(xiàn)搜索結果遠遠要比上面多得多,大約會有上百條數(shù)據(jù)來源。依靠關鍵詞同樣檢索到了非常多流行的開源數(shù)據(jù)集,它們都適用于目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結果來看,來自 Kaggle 的數(shù)據(jù)集占了一小半,它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這么多數(shù)據(jù)源,搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個數(shù)據(jù)集的原地址,僅根據(jù)簡介就能了解該數(shù)據(jù)集的大概應用領域與內容。如下展示了 COCO 數(shù)據(jù)集的簡介頁面:

最后我們檢索了斯坦福的問答數(shù)據(jù)集「SQuAD」,搜索結果不僅給出了挑戰(zhàn)賽地址和數(shù)據(jù)集地址,同時還提供了相似數(shù)據(jù)集和挑戰(zhàn)賽的地址。但是在我們檢索「SQuAD 2.0」的時候,并沒有搜索到斯坦福大學發(fā)布的機器閱讀理解問答數(shù)據(jù)集 SQuAD 2.0,也可能是該數(shù)據(jù)集太新,還沒有被搜索引擎收錄。

合作機構

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機構的職權范圍從漁業(yè)到日冕,其檔案包含近 7 萬個數(shù)據(jù)集,包括 19 世紀的船舶日志。這些數(shù)據(jù)的總容量超過 35 PB,相當于 35000 個典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數(shù)據(jù)開放的使命,NOAA 首席數(shù)據(jù)官 Edward Kearns 表示?!肝覀兿胩剿餍碌姆椒?,使其他人也能使用這些數(shù)據(jù)?!?/p>

與數(shù)據(jù)擁有者展開合作是運行 Dataset Search 的關鍵步驟。盡管這一系統(tǒng)未來可能變得更加復雜,谷歌目前不打算像處理網頁和圖像那樣讀取或分析數(shù)據(jù)。Noy 表示,「只有數(shù)據(jù)發(fā)布者提供的元數(shù)據(jù)足夠好,這種搜索工具才能夠好。」

和 Google Scholar 一樣,Dataset Search 目前不提供自動化查詢或應用程序編程接口(API),盡管谷歌表示將來可能會增加這一功能。

Noy 表示當研究人員開始使用 Dataset Search 時,谷歌將會觀察他們如何與其交互,并利用這些信息來改進搜索結果。她還表示,公司尚未打算把該服務商業(yè)化。

隨著 Dataset Search 的不斷改進,未來它也許會跟 Google Scholar 整合,將特定研究領域的搜索結果關聯(lián)到相關數(shù)據(jù)集。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6257

    瀏覽量

    111935
  • 搜索引擎
    +關注

    關注

    0

    文章

    120

    瀏覽量

    13875

原文標題:AI研發(fā)者福利!谷歌推出數(shù)據(jù)集搜索專用引擎Dataset Search

文章出處:【微信號:gh_211d74f707ff,微信公眾號:重慶人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    存儲芯片閃崩!谷歌發(fā)布新算法,AI內存占用只需原來1/6?

    電子發(fā)燒友網報道(文/梁浩斌)又一“Deepseek時刻”來了?谷歌在3月24日發(fā)布了一項名為TurboQuant的先進向量量化壓縮算法,旨在解決大語言模型和向量搜索引擎中的內存瓶頸問題,令KV
    的頭像 發(fā)表于 03-27 13:50 ?6954次閱讀
    存儲芯片閃崩!<b class='flag-5'>谷歌</b><b class='flag-5'>發(fā)布</b>新算法,AI內存占用只需原來1/6?

    OpenAI要求谷歌將ChatGPT列為默認搜索引擎之一

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網官方
    發(fā)布于 :2026年03月24日 13:37:11

    Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理

    旨在支持 NVIDIA GPU 和 NVIDIA cuVS 開源庫,用于向量搜索索引生成。本公告基于在 Oracle AI World 2025 大會上推出的 Oracle AI Database 26ai 和 Oracle Private AI Services Co
    的頭像 發(fā)表于 03-23 15:26 ?388次閱讀

    如何快速查找工業(yè)部件的 3D CAD 模型

    上,通常位于規(guī)格、圖片或功能描述下方。這是您最有可能找到該產品 CAD 的地方。 3.在傳統(tǒng)搜索引擎中按零件編號搜索簡要說明:零件編號是最快的捷徑。 如果您有零件編號,這就是最好的捷徑。將其輸入
    發(fā)表于 03-04 16:22

    淘寶圖片搜索API(taobao.item_search_img)

    一、前言 在電商數(shù)字化深度發(fā)展的當下,視覺化檢索已成為連接用戶需求與商品資源的核心鏈路,相較于傳統(tǒng)文字搜索,以圖搜物能有效解決商品特征描述模糊、同款貨源查找效率低、跨平臺品類匹配難等行業(yè)痛點,成為電
    的頭像 發(fā)表于 01-29 11:54 ?292次閱讀

    邁富時GEO服務:技術驅動AI搜索時代的企業(yè)增長新引擎

    導語: 隨著DeepSeek、豆包、文心一言等生成式AI搜索引擎的快速普及,用戶獲取信息的方式正從傳統(tǒng)"鏈接點擊"轉向"AI直接對話"。在這場深刻的信息檢索范式變革中,企業(yè)如何讓品牌內容被AI系統(tǒng)
    的頭像 發(fā)表于 01-17 21:20 ?429次閱讀

    京東關鍵詞item_search-按關鍵字搜索京東商品

    京東關鍵詞搜索(item_search)技術實現(xiàn)指南:合規(guī) API 調用 + 數(shù)據(jù)運營實戰(zhàn) 京東商品關鍵詞搜索(item_search)是電
    的頭像 發(fā)表于 01-06 09:27 ?1238次閱讀

    京東按關鍵字搜索商品 API接口item_search Pro

    京東搜索商品 API(item_search Pro)賦能電商運營全指南 item_search Pro 是京東商品搜索接口的增強版(第三方封裝或官方增強能力),核心用于按關鍵詞 /
    的頭像 發(fā)表于 01-05 11:03 ?683次閱讀

    二進制查找(Binary Search)介紹

    二進制查找(Binary Search)用于在已排序的數(shù)組中執(zhí)行二進制查找的函數(shù)。 int binary_search(int arr[], int size, int targ
    發(fā)表于 12-12 06:54

    5分鐘了解SEO優(yōu)化服務器對網站加載速度的影響

    一個為SEO優(yōu)化過的服務器,能顯著提升網站性能,從而在搜索引擎排名中占據(jù)有利位置。
    的頭像 發(fā)表于 12-02 10:27 ?421次閱讀

    線性搜索與二分搜索介紹

    線性搜索(Linear Search):從數(shù)組的第一個元素開始,依次將當前元素與目標值進行比較,直到找到目標值或搜索完整個數(shù)組。 二分搜索(Binary
    發(fā)表于 12-01 07:36

    根據(jù)標題獲取商品鏈接評論接口的技術實現(xiàn)

    [調用評論API] F --?> G[數(shù)據(jù)清洗存儲] ? 關鍵組件說明: 搜索引擎接口 :通過電商平臺開放API實現(xiàn)標題搜索 $$ text{API}_{search} = text{
    的頭像 發(fā)表于 10-20 16:03 ?779次閱讀
    根據(jù)標題獲取商品鏈接評論接口的技術實現(xiàn)

    谷歌查找我的設備配件(Google Find My Device Accessory)詳解和應用

    谷歌查找我的設備配件(Google Find My Device Accessory)介紹 谷歌查找我的設備配件是與谷歌
    發(fā)表于 08-31 21:10

    地平線余凱談AI時代產品方法論

    互聯(lián)網時代,商業(yè)邏輯始終圍繞“連接”與“理解人”展開。從搜索引擎、社交平臺再到短視頻應用,都在通過用戶行為數(shù)據(jù)揣摩人類偏好,優(yōu)化服務體驗。
    的頭像 發(fā)表于 06-03 11:44 ?1047次閱讀

    RAKsmart服務器SEO優(yōu)化優(yōu)勢分析

    在RAKsmart服務器上搭建SEO網站,可以借助其基礎設施和服務特性,從技術層面優(yōu)化搜索引擎排名。以下是具體優(yōu)勢及分析,主機推薦小編為您整理發(fā)布RAKsmart服務器SEO優(yōu)化優(yōu)勢分析。
    的頭像 發(fā)表于 04-22 10:12 ?764次閱讀
    佳木斯市| 荥阳市| 镶黄旗| 荥阳市| 安丘市| 新乡市| 安吉县| 崇文区| 日喀则市| 墨脱县| 清丰县| 海林市| 广平县| 米泉市| 博白县| 鄂托克前旗| 湘潭县| 嘉荫县| 林口县| 桐梓县| 金门县| 博湖县| 武平县| 酉阳| 台江县| 松江区| 黔西县| 阿荣旗| 凤冈县| 长岭县| 夹江县| 方正县| 白水县| 洛宁县| 陕西省| 双鸭山市| 崇礼县| 滨州市| 瑞丽市| 津南区| 海宁市|