Webページの情報を自動で収集・整理したいとき、HTMLの構造はサイトごとに異なるため、従来のスクレイピングではページごとにルールを書き換える必要がありました。Diffbotは、この課題をAI(コンピュータビジョンと自然言語処理)で解決するプラットフォームです。URLを渡すだけでページの種類を自動判別し、整理済みのJSONデータとして出力します。さらに、Web全体をクロールして構築した100億件超のエンティティを持つナレッジグラフも提供しており、企業情報や人物情報、ニュース記事などを横断的に検索できます。
Diffbotの会社概要
Diffbotは2008年にスタンフォード大学AIラボ出身のMike Tung氏が設立した米国のAI企業です。本社はカリフォルニア州メンロパークに置かれ、独自のデータセンターからインフラを運用しています(出典: Diffbot公式)。
| 項目 | 内容 |
|---|---|
| 設立 | 2008年 |
| 創業者・CEO | Mike Tung(スタンフォード大学AIラボ出身) |
| 本社 | カリフォルニア州メンロパーク |
| 従業員数 | 約35名(出典: GetLatka) |
| 累計資金調達 | 1,300万ドル |
| 売上高(2024年) | 310万ドル(出典: GetLatka) |
| 主要投資家 | Felicis Ventures、Accenture Ventures、DGベンチャーズ |
企業のミッションは「人類の知識を統合する最初の自律システムを構築し、知的システムの到来を加速させる」というものです。Microsoft Bing、eBay、Adobe、Dow Jones、Snapchat、Nasdaq、DuckDuckGoなど400社以上がDiffbotのデータを活用しています(出典: Diffbot公式)。
従来型スクレイピングとの技術的な違い
一般的なWebスクレイピングツールは、CSSセレクターやXPathなどのルールを人間が定義して、ページ内の要素を指定します。この手法はサイトのHTML構造が変わると動作しなくなるため、保守コストが高くなりがちです。
Diffbotはこれとは別の手法で動作します。ページのレンダリング結果に対してコンピュータビジョン(画像認識)を適用し、「このブロックはタイトル」「ここは本文」「これは価格」といった判別をAIが自動で行います。独自のChromiumベースのレンダリングエンジンを搭載しているため、ReactやVue.jsなどのSPA(シングルページアプリケーション)も正しく解析できます。
この仕組みにより、以下の利点が生まれます。
- サイトごとのルール定義が不要: HTMLの構造に依存しないため、どのサイトでも同じAPIで対応可能
- HTML変更に強い: ルールベースと異なり、デザイン変更による動作停止が起こりにくい
- 意味的なデータ抽出: 抽出されたデータに意味(セマンティクス)が付与されるため、エンティティ間の関係性も把握できる
主要プロダクトの機能
Diffbotは用途に応じた複数のAPIとプロダクトを提供しています。
Extract API
指定したURLのWebページをAIで解析し、構造化されたJSONデータとして返すAPIです。ページの種類(記事、商品、ディスカッション、画像、動画など)を自動的に判別し、それぞれに最適化されたフィールドでデータを出力します。
記事ページの場合の出力例:
- タイトル、著者、公開日
- 本文テキスト、画像URL
- 言語検出、センチメント分析結果
商品ページの場合の出力例:
- 商品名、説明文、価格(通常価格・セール価格)
- ブランド、SKU、在庫状況
- レビュー数、評点
Crawl API
Webサイト全体を自動的に巡回し、Extract APIと組み合わせて大量のページからデータを一括収集するAPIです。クロール対象のドメインやURLパターン、ページ数上限、巡回間隔を設定でき、定期実行による継続的なデータ収集にも対応しています。
Knowledge Graph
DiffbotがWeb全体をクロールして構築した、世界最大級の自動生成ナレッジグラフです。以下の2つの機能で構成されています。
| 機能 | 概要 |
|---|---|
| KG Search | DQL(Diffbot Query Language)を使い、10億超のエンティティから企業・人物・製品・記事などを検索 |
| KG Enhance | 自社の保有データ(企業名やドメインなど)をDiffbotのナレッジグラフで補完・拡充 |
ナレッジグラフのデータ規模(公式サイト掲載値):
| エンティティ種別 | 件数 |
|---|---|
| 組織(企業・非営利団体) | 2億4,600万件以上 |
| ニュース記事・ブログ記事 | 16億件以上 |
| 小売商品 | 300万件以上 |
| イベント | 2万3,000件以上 |
| 人物 | 数十億件 |
各エンティティは相互にリンクされており、たとえば「ある企業のCEO」→「その人物の経歴」→「過去に在籍した企業の資金調達情報」といった関係性をたどれます。Google Knowledge Graphと比較した公式ベンチマーク記事では、Diffbot側のデータ網羅性の高さが報告されています(出典: Diffbot Blog)。
Natural Language API
テキストを入力すると、エンティティ抽出(固有表現認識)、センチメント分析、トピック分類を実行するAPIです。抽出したエンティティはナレッジグラフと自動的にリンクされるため、テキスト内で言及された企業や人物の詳細情報をすぐに参照できます。
LeadGraph
ナレッジグラフのデータをB2Bの営業活動に特化させたプロダクトです。2億5,000万社以上のグローバル企業データをフィルタリングし、ICP(理想顧客プロファイル)に合致するリードを検索できます。AIが過去の成約案件との類似度をスコアリングし、なぜ有望なのかを自然言語で説明する機能も備えています。ニュースモニタリングや投資情報の検索にも対応しています(出典: Diffbot Products)。
Diffbot LLM
2025年にリリースされた、Llama 3.3 70Bをファインチューニングした独自の大規模言語モデルです。DQL(Diffbot Query Language)を使ったナレッジグラフへのクエリ発行に特化しており、自然言語の質問をKGクエリに変換してリアルタイムの事実データを取得します。Google GeminiやChatGPTと比較して、事実に基づく回答精度でこれらを上回ったとされるGraphRAGシステムのオープンソース実装です(出典: SiliconANGLE)。
料金プラン
Diffbotはクレジット制の従量課金モデルを採用しています。すべてのAPIコール(Extract、Knowledge Graph、Enhance、Crawl)でクレジットを消費します。
| プラン | 月額料金 | 含まれるクレジット | API呼び出し上限 | 備考 |
|---|---|---|---|---|
| Free | 無料 | 10,000 | 5回/分 | ダッシュボードアクセス付き、クレジットカード不要 |
| Startup | $299 | 250,000 | 5回/秒 | API利用可能、超過分は$0.001/コール |
| Plus | $899 | 1,000,000 | 25回/秒 | Crawl利用可能、超過分は$0.0009/コール |
| Enterprise | 要問合せ | カスタム | カスタム | SLA・専任サポート付き |
Freeプランは2024年4月に導入されたもので、以前の14日間無料トライアルに代わるものです。学生向けの無料利用枠も別途用意されています。
クレジット消費の目安:
- Extract API(1ページ抽出): 1クレジット
- Knowledge Graph Enhance(1レコード補完): 100クレジット
- 企業・商品レコード抽出: 25クレジット
大量のKG Enhanceリクエストを行うとクレジット消費が急増するため、利用パターンに応じたプラン選択が重要です。
競合ツールとの比較
Webデータ抽出の分野には多数のツールが存在します。Diffbotの特徴は、AI自動分類とナレッジグラフの組み合わせにあります。
| 比較項目 | Diffbot | Apify | Octoparse | ScraperAPI |
|---|---|---|---|---|
| 抽出方式 | AIによる自動分類 | アクター(スクリプト) | ビジュアルエディター(ルールベース) | プロキシ経由のHTMLリクエスト |
| ナレッジグラフ | 10億超エンティティ搭載 | なし | なし | なし |
| SPA対応 | 独自Chromiumエンジン | Playwright/Puppeteer | 内蔵ブラウザ | ヘッドレスブラウザオプション |
| ルール定義 | 不要(AI自動判別) | 必要(コード記述) | 必要(GUI操作) | 必要(HTML解析は別途) |
| NLP機能 | センチメント分析・エンティティ抽出内蔵 | 外部連携が必要 | なし | なし |
| 月額最低価格 | 無料(10,000クレジット) | $49 | 無料(機能制限あり) | $49 |
| 主な用途 | データ抽出+ナレッジ構築 | 汎用スクレイピング | ノーコードスクレイピング | 大量ページの高速取得 |
Diffbotはルール定義不要のAI抽出とナレッジグラフを組み合わせている点で独自のポジションを占めていますが、価格面ではApifyやScraperAPIのほうが低コストで大量処理に向いています。「データの抽出だけでなく、意味の理解と関連付けまで必要か」がツール選定の判断基準になります。
API活用のコード例
DiffbotのAPIはREST形式で、あらゆるプログラミング言語から利用できます。以下はPythonでExtract APIとKnowledge Graphを使う例です。
Extract APIでWebページを解析する
import requests
API_TOKEN = "YOUR_DIFFBOT_TOKEN"
# 記事ページを自動解析
response = requests.get(
"https://api.diffbot.com/v3/article",
params={
"token": API_TOKEN,
"url": "https://example.com/news/article-123",
}
)
data = response.json()
article = data["objects"][0]
print(f"タイトル: {article['title']}")
print(f"著者: {article.get('author', '不明')}")
print(f"公開日: {article.get('date', '不明')}")
print(f"本文冒頭: {article['text'][:200]}...")
Knowledge Graphで企業情報を検索する
import requests
API_TOKEN = "YOUR_DIFFBOT_TOKEN"
# DQLで日本のAI企業を検索
response = requests.get(
"https://kg.diffbot.com/kg/v3/dql",
params={
"token": API_TOKEN,
"type": "query",
"query": 'type:Organization location.country.name:"Japan" categories.name:"Artificial Intelligence"',
"size": 10,
}
)
results = response.json()
for entity in results.get("data", []):
print(f"企業名: {entity.get('name')}")
print(f"所在地: {entity.get('location', {}).get('city', {}).get('name', '不明')}")
print(f"従業員数: {entity.get('nbEmployees', '不明')}")
print("---")
MCP Serverとの連携
2025年以降、DiffbotはMCP(Model Context Protocol)サーバーも公開しています。Claude DesktopなどのMCPクライアントに接続することで、LLMエージェントがDiffbotのKG検索やWebデータ抽出を直接ツールとして利用できます(出典: GitHub - diffbot/diffbot-mcp)。
ユースケース
Diffbotは多様な業界で利用されています。代表的な活用パターンを整理します。
マーケットインテリジェンス ナレッジグラフを使って、競合企業の資金調達状況、採用動向、技術スタック、パートナーシップを継続的にモニタリングする用途です。投資判断や事業開発のリサーチに活用されています。
ニュースモニタリング 16億件超のニュース記事データベースから、特定の企業や業界に関連するニュースをリアルタイムで検出します。センチメント分析と組み合わせることで、リスク検知やPR効果測定にも対応できます。
EC・価格調査 商品ページの自動解析により、競合ECサイトの価格変動、在庫状況、レビュー動向を自動収集します。サイトごとにスクレイピングルールを書く必要がないため、数百サイトを横断的に監視する場合でも運用負荷が低く抑えられます。
LLMのハルシネーション対策 Diffbot LLMやMCP Serverを通じて、大規模言語モデルが生成する回答にリアルタイムの事実データを付加するGraphRAGの仕組みを構築できます。ナレッジグラフから取得した情報を引用元として添付することで、回答の信頼性を高められます。
導入時に考慮すべきポイント
Diffbotの強みと弱みを整理します。
強み:
- URLを渡すだけで構造化データが得られるため、開発工数を大幅に削減できる
- ナレッジグラフによる企業・人物・製品のリレーション検索は他のスクレイピングツールにない機能
- 独自のChromiumエンジンでSPAサイトにも対応
- Diffbot LLMやMCP Serverなど、LLMエコシステムとの統合が進んでいる
- 無料プランがあり、小規模な検証から始められる
留意点:
- AIの自動分類に依存するため、ページの種類を誤判別した場合にユーザー側で微調整する手段が限られる
- KG Enhanceなどのクレジット消費が大きい操作を多用するとコストが急増する
- ドキュメントやUIは英語中心で、日本語のサポートリソースが少ない
- 従業員数約35名の企業であり、大規模エンタープライズ向けサポート体制は大手SaaS企業と比べると限定的
まとめ
DiffbotはAIによるWebデータの自動構造化と、Web全体から構築されたナレッジグラフを組み合わせたプラットフォームです。ルールベースのスクレイピングでは対応しきれない大規模・多サイトのデータ収集や、企業・人物間のリレーションを活用したリサーチに適しています。
無料プランで基本機能を試せるため、まずはExtract APIで自社の対象サイトが正しく解析されるかを検証し、Knowledge Graphの検索精度を確認してから本格導入を判断するのが実践的な進め方です。