Databricksの生成AI戦略

May 13, 2024

420

Databricksの生成AI戦略

過去のウェビナーで使ったスライドです。

Takaaki Yayoi

May 13, 2024

Tweet

More Decks by Takaaki Yayoi

See All by Takaaki Yayoi

Databricks勉強会：Databricksのベストプラクティス

1

57

Azure Databricks勉強会資料

3

86

Databricksにおける生成AIの取り組み

1

170

Databricksのご紹介

1

300

DatabricksにおけるRAGの実践

2

3.1k

DatabricksのLLM機能アップデート - ML15min

1

18

生成AIでデータ分析やコーディングはどう変わるのか？ - ML15min

1

40

DatabricksにおけるLLMOps - ML15min

1

25

生成AIとはなにか

2

120

Other Decks in Technology

See All in Technology

Open Source Developer Experience, Platform Engineering and AI-infused Apps - DevTalks Romania

0

190

MySQL 8.4 LTS があらわれた

1

200

不要な DNS リソースレコードは消そう / Delete unused DNS records

4

2.1k

JaSST'24 Tohoku基調講演/jasst24tohoku_keynote

4

640

Go1.21から導入された Go Toolchainの仕組みをまるっと解説

10

1.9k

Unified Diff 形式の差分から Go AST を構築して feature flag を自動計装する

7

630

エレガントパズルエンジニアのマネジメントという難問にあなたはどう立ち向かうのか / Elegant Puzzle

12

2k

ドラッグストア店員が独学で化粧品顧客管理アプリを作成した話

1

150

RAGのサービスをリリースして1年が経ちました

6

2.4k

Developing image pull secrets provisioner / Kubernetes Meetup Tokyo #65

2

110

Oracle Database Technology Night #79 - Oracle Database 23ai 新機能 Oracle Advanced Cluster File System (ACFS)

oracle4engineer

1

230

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround - Search Engineering Tech Talk 2024 Spring

0

340

Featured

See All Featured

Build The Right Thing And Hit Your Dates

26

2.1k

Understanding Cognitive Biases in Performance Measurement

13

1.1k

Imperfection Machines: The Place of Print at Facebook

261

12k

11

610

Building Your Own Lightsaber

101

5.8k

Navigating Team Friction

179

13k

Mobile First: as difficult as doing things right

218

8.7k

Bootstrapping a Software Product

302

110k

Writing Fast Ruby

623

60k

A Tale of Four Properties

153

22k

Let's Do A Bunch of Simple Stuff to Make Websites Faster

501

140k

Intergalactic Javascript Robots from Outer Space

266

26k

Transcript

©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 1 Databricksの生成AI戦略 Databricks Japan ソリューション・アーキテクト部部長　弥生隆明
自己紹介弥生隆明 (やよいたかあき) Databricksソリューションアーキテクト部部長 ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事
▪ 前職はコンサルティングファーム、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ GWはLLMの勉強が捗りました。 ▪ Qiitaでいろいろ書いています。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary アジェンダ • Databricksのご紹介 • LLMの波 • Databricksの戦略 • Databricksにおける生成AIの活用 3
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Databricksのご紹介 4
©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上
従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの発明者でパイオニア導入企業数 10000+ レイクハウスカンパニーのクリエーターが 2013年に起業知る人ぞ知るデカコーン Databricksは2022年も攻勢を続ける | Coral Capital
©2023 Databricks Inc. — All rights reserved | This information
is conﬁdential, please do not share externally 多くの企業がいまだデータ&AIに苦戦しています Data + AIの成熟度競合優位性クリーンデータレポートアドホッククエリーデータ探索予測モデリング機械学習生成型 AI データの理解何が起きる？何が起きた？完全なAIの変革 6
©2023 Databricks Inc. — All rights reserved | This information
is conﬁdential, please do not share externally Data Lake Governance 現在、皆様はあまりに多くのプラットフォームをつなぎ合わせています Data Science & ML Streaming Orchestration Data Warehouse Business Intelligence データのサイロは高価なオペレーションコストを引き起こします一貫性が無いポリシーはデータの信頼性を損ないますバラバラなツールはチーム間の生産性を悪化させますこれら全ては無駄に高価で複雑です
©2023 Databricks Inc. — All rights reserved BI & データウェ
アハウスデータエンジニアリングデータストリーミングデータサイエンス & ML 複数ペルソナをサポートする単一のプラットフォーム構造化データ、準構造化データ、非構造化データすべてを格納、管理する単一のプラットフォームデータレイクハウスは異なるアプローチを取りますクラウドデータレイクすべての生データ (ログ、テキスト、音声、動画、画像) 企業全体におけるすべてのデータアクセスに対する単一のセキュリティ、ガバナンスモデル
©2023 Databricks Inc. — All rights reserved 複数ペルソナをサポートする単一のプラットフォーム Delta Lake
Unity catalog Databricks SQL Databricks ワークフロー Delta Live Tables Databricks ML Databricksは唯一の統合レイクハウスを提供しますクラウドデータレイクすべての生データ (ログ、テキスト、音声、動画、画像)
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLMの波 10
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLM(Large Language Model)概況これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代！ • 2022/11 OpenAIがChatGPTを発表 • 2023/2 Meta AIがLLaMA(Large Language Model Meta AI) • 2023/2 GoogleがBardを発表 • 2023/3 OpenAIがGPT-4を発表 • 2023/3 Azure OpenAI ServiceでChatGPTが利用可能に • 2023/3 DatabricksがDollyを発表 • 2023/3 OpenAI CEOが岸田首相と面会 • 2023/4 アリババクラウドが通義千問（Tongyi Qianwen）を発表 • 2023/4 Amazon.comが生成AIサービス提供を発表
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLM(Large Language Model)概況これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代！ • 2023/4 DatabricksがDolly 2.0を発表 • 2023/4 パナソニックホールディングスがグループ国内全社員を対象にChatGPTをベースに構築したAIアシスタントサービス「PX-GPT」を利用開始したと発表 • 2023/5 MosaicML Foundationが商業利用可能なオープンソースLLM、MPTシリーズをリリース • 2023/5 Google Bardが日本語に対応 • 2023/5 サイバーエージェント、国内最大級の日本語LLMを公開 • 2023/5 AI Shift、カスタマーサポートに特化した各企業専用LLM構築サービスを提供開始 • 2023/5 マイクロソフトは23日、ChatGPTにBingを搭載すると発表
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLM(Large Language Model)概況これをまとめることが一番難易度高いかもしれません。時はまさにLLM時代！ • 2023/6 OpenAIがGPT-4、GPT-3.5ファミリーの最新モデルをリリース • 2023/6 経団連が大規模言語モデルに関する政策提言を発表 • 2023/6 マイクロソフトが大規模言語モデルphi-1を発表
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary お客様からのLLMに関するご質問 LLMはハイプなのかリアルなのか？これはiPhoneのようなモーメントなのか？ LLMは我々のビジネスにとって脅威なのか機会なのか？競合優位性を得るために具体的にどのようにLLMを使えばいいのか？ LLMと自分のデータをどのように活用すればいいのか？ ©2023 Databricks Inc. — All rights reserved | Conﬁdential and proprietary 14
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 我々はDollyのようなモデルが LLMの民主化に役立ち、限られた数社のみが購入できるものから全ての企業が自身の製品を改善するために所有、カスタマイズできるコモディティになるものと信じています。 03/24/2023 Link “Vicuna: オープンソースチャットbotが ChatGPTの90%*の品質でGPT-4にプレッシャーを与えています” Link LLMはハイプではなく AIゲームを一変させます稀に見る技術のシフトです “LLaMAのようにより小規模で高性能なモデルは...このように重要で変化の激しい領域においてさらなるアクセスの民主化を実現しています...” 0/2/24/2023 Meta’s LLaMA “GPT-4は試験に通過しようとする弁護士の90%に打ち勝っています” 03/14/2023 Link 15
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 私のビジネスにどのような意味が？ LLMは数多くの人間によるタスクの自動化を実現し、以前のMLアプローチよりも迅速な価値創出と優れたROIを提供します 16 少数のラベルで簡単にモデル品質を改善 → ラベリングのコストを削減しつつもビジネス成果を改善 MLOpsとプロダクション化の複雑性の削減 → それぞれのユースケースで求められるエンジニアリング工数を削減以前は困難だったユースケースが簡単に → 高コストの特殊サービスを内製の実装で置き換え ML開発ライフサイクルの加速 → 必要となるヘビーリフティングを削減することで価値創出に至る時間が数ヶ月から数週間に ML開発プロセスがよりアクセスしやすく → いくつかのユースケースはSQLを使えるアナリストのみで提供可能に以前は不可能だったユースケースが実現可能に → ビジネスにおいてさらなるアイデアに対応可能にイノベーションの加速 ROIの増加
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Dolly開発の背景 17
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly開発の背景 ChatGPTのパフォーマンスは素晴らしいものですがプロプライエタリです • プロプライエタリの指示追従モデルであるChatGPTは2022年11月にリリースされ、世界中に嵐を巻き起こしました。このモデル Webからの数兆の単語でトレーニングされ、開発には膨大な数のGPUを必要とします。 • これは、Googleや他の企業による自身のプロプライエタリな指示追従モデルのリリースにつながりました。2023年2月には、Metaが学術分野の研究者向けにLLaMAと呼ばれる、それぞれが80,000GPU時間以上トレーニングされた一連の高品質な言語モデルへの注力を発表しました。 • そして、3月にはスタンフォードでLLaMAをベースとし、50,000の人間のような質疑応答の小規模データセットにチューニングされた Alpacaモデルを構築し、驚くべきことに ChatGPTのようなインタラクティブ性を示しました。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly開発の背景 ChatGPTのパフォーマンスは素晴らしいものですがプロプライエタリです • 企業がAPIの先にあるプロプライエタリモデルを提供する集中管理された LLMにデータ送信するのではなく、自身のモデルを構築することを望む理由は多数存在します。 • 多くの企業において、AIによるメリットを享受できる問題やデータセットは、自分たちにとって最もセンシティブでプロプライエタリな知的財産であり、サードパーティにそれを引き渡すことは受け入れ難いことかもしれません。さらに、企業においては、モデルの品質、コスト、望まれる挙動に関してそれぞれのトレードオフを持っているかもしれません。多くのMLユーザーは、自分たちのモデルを直接所有することが長期的にベストであると我々は信じています。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
プロプライエタリなSaaS LLM オープンソースLLM コントロール/所有権ベンダーによるコントロール、所有完全にオープン、ご自身でカスタマイズ可能セキュリティ/プライバシーデータはDatabricks環境外にデータはお使いのDatabricks 環境に存在カスタマイゼーションベンダー依存完全にカスタマイズ可能透明性内部のコード、モデルの重み、トレーニングデータは不明瞭な箱の中ですコード、モデルの重み、トレーニングデータは100%オープンで利用可能ですアクセス方法 API経由でアクセスし、サードパーティのSLAに依存自分、あるいはベンダーによるホストコスト/品質様々です - すべてのユースケースで「ベスト」な単一のモデルは存在しません GPT-J 例: LLaMA Dolly 我々は世界がオープンソースLLM にシフトしていると信じています 20
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary ご自身の要件に応じてオープンソースモデルをチューニングし、あなたのデータがどこでどのように処理されるのかに関して完全にコントロールできます高品質な生成型LLMのトレーニングをシンプル、安価、高速にします GPUのデータセンターや PhDのチームを必要とすべきではありませんお客様はクローズドソース SaaSのLLMの制限なしに高品質なLLMへのアクセスを必要としています小規模かつお客様自身のデータセットで大規模モデルをどのようにチューニングするのかを示すために我々はDollyを開発しました 21
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dollyとは民主化されたオープンソースの大規模言語モデルです • Dollyは、Q&A、要約、コンテンツ生成の様なChatGPTによって一般的なものとなった挙動を示す大規模言語モデルです。 • DollyはChatGPTを置き換えるものではありませんが、非常に有用なものであり、すぐにでもさまざまなことを行うことができます！ • Dollyはトレーニングと実行において小規模かつ安価です。 • ご自身の問題空間において、モデル出力を改善するために自分のデータを用いて容易にチューニングできます。 • Dolly 1.0はオープンソースであり、探索目的で企業が活用することができますが、商用アプリケーション向けにライセンスされていません
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dollyはモデルカスタマイズの価値を証明しますターゲットデータを用いて既存モデルをチューニングすることで、少ないコストで大きな価値をもたらす高品質な結果を生み出します。 • 約30分の処理時間と$30のコストで、5万の質問/回答ペアの研究データに対して、数年もののオープンソースモデル(GPT-J by EleutherAI)をファインチューニング(リファインなど)することでDollyは構築されました。 • Dollyは、ターゲットトレーニングセットに対して小規模なベースモデルをファインチューニングすることで、最先端の成果を生成することを示しています。 • Dollyの構築に用いられた技術は、より狭いユースケースにおいて人間を上回る成果を生み出すためにも活用されています。 • Dollyは、一般的なQ&A以外のユースケースを容易にサポートする様にさらにファインチューニングすることができます。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dollyは私のビジネスにどの様な意味が？ターゲティングされたデータを用いて既存モデルをチューニングすることで、少ないコストで非常に価値のある高品質な結果を生み出すことができます。 • Dollyは生成型言語AIを活用する際のコストと複雑性を劇的に削減します。 • Dollyは最先端のLLMよりも20倍小さく、それ自体が品質、スピード、コスト間のトレードオフに対して意味のあるインパクトをもたらす可能性を秘めています。 • Dollyは皆様の企業におけるシングルマシンで完全に動作します。 • DollyはChatGPTの様なモデルに含まれている広範な事実に関する情報を有していませんが、ご自身のユースケースにおいて非常に深い理解をする様にファインチューニングすることができます。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly 1.0のリリース国内外で大きな反響がありました • 3/25にDolly 1.0を発表するブログ記事が投稿され、非常に多くのいいねをいただきました。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Dolly 1.0から Dolly 2.0へ 26
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly 2.0で何がNewなのか？ Dollyが商用利用できるようになりました • DatabricksではDollyの次バージョンを導入しました - Dolly 2.0 • Dolly 2.0は商用利用にライセンスされ、人が作成したデータセットを用いてファインチューニングされた、世界初のオープンソースの指示準拠LLMです。 • Dolly 2.0は人が作成したプロンプトとレスポンスデータセット Databricks-dolly-15k を用いてトレーニングされており、このデータセットもオープンソース化されています。 • Dolly 2.0によって、すべての企業は商用のためにパワフルな言語モデルの所有、オペレーション、カスタマイズが可能となります。 • トレーニングコードはこちらのノートブックでオープンソース化されています。 • こちらからDolly 2.0モデルの重みやデータセットをダウンロードできます。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
どのようにデータセットを準備したのか？ CEOの声がけのもと、人力で作りました。 • 数千ドルと数時間を費やし、人間が生成した 15KのQ&Aデータセットで12Bパラメータのオープンソースモデル(EleutherAIのPythia)をファインチューニングして、 Dolly 2.0が構築されました。 • Dolly 1.0のリリースの数日後、弊社 CEO Ali Gohdsiからこのようなメッセージが届きました。やあ、bricksters(Databricks社員のこと) みんなの助けが必要だ！ DollyはOpenAIのプロプライエタリなデータセットを使って作成されたので、完全にオープンにできないんだ。自分たちの Q&Aを作成する必要がある。我々にはスマートな数千の bricksterがいる。誰でも参加できるから、質問と goodな回答を書いてね！
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly 2.0のリリース国内外で大きな反響がありました • 4/13にDolly 2.0を発表するブログ記事が投稿され、非常に多くのいいねをいただきました。
©2023 Databricks Inc. — All rights reserved Conﬁdential and Proprietary
Dolly 2.0のリリースオープンソースの素晴らしさを体験しました • Dolly 2.0リリース後の週末に様々な動きがありました。 • 有志の方の手によって、 Databricks-dolly-15k が日本語に翻訳される。 • リリースから24時間以内に翻訳されたのは日本語とスペイン語のみ。 • それ以降も上記データセットでファインチューニングされたモデルなどが公開。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary DatabricksにおけるLLM 31
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 32 LLMは質の高いデータに依存します。 Databricksは皆様のデータチームがLLMのパワーをクイックかつ容易に組織全体に提供する支援をする統合データ&AI プラットフォームです。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLM実装の課題 ✖ ✖ ✖ 俊敏であること LLMを自分でカスタマイズコントロール、保護できること自分の既存データと LLMを接続できること皆様の競合もLLMに飛びついており、競合に遅れを取らないようにする必要があります — 価値の出るユースケースにクイックに取り組むにはどうすれば？プロプライエタリなSaaSの LLMではサードパーティにデータを送信する必要があり、競合優位性を損なう可能性があります。あなた自身のデータを用いて、あなたが所有&コントールするLLMをカスタマイズするには？他の形態の機械学習と同じように、LLMはご自身のデータと密接に結び付けられたデータ戦略を必要とします — あなたの全ての既存データソースとLLMをうまく接続するには？ 33
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Databricks + LLM ✓ ✓ ✓ SQLにおけるLLM + ETLパイプライン + リアルタイムAPI オープンソースを筆頭とした全てのLLMのサポートレイクハウスにおける統合インタラクティブSQL、Delta Live Tables、リアルタイムAPI 経由での容易なLLMアクセス。もちろん、Python IDE/ ノートブックからLLMを活用できます！プロプライエタリSaaSの LLMとオープンソースLLMのサポート。それぞれのユースケースにおける品質、コントロール、カスタマイズ性の適切なバランスを見つけ出すためのオープンソースLLMの容易なトレーニングとファインチューニング。レイクハウスにおける企業データとのセキュアなインテグレーション。他のベンダーやサービスにデータをコピーする必要はありません。モデルサービス、特徴量ストア、 MLOps(LLMOps)、データモニタリングとの統合。 34
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary サンプルユースケース • コールセンター記録からトップの製品問題の抽出—手動でのタグづけなしに！ • カスタマーサポートのチャットログに基づく解約リスクのある顧客をタグづけ • 広告キャンペーン用の製品説明の自動生成 • 購買決定基準を理解するために製品レビューの読み込み …などなど… LLMを通じて非構造化テキストから洞察を得るためのSQLやDLTパイプラインの記述 35
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 36 • 新たなフレーバーのサポート ◦ Hugging Face Transformers ◦ OpenAI API ◦ LangChain • アーティファクトの並列ダウンロードのサポート MLﬂowでは大幅にLLM サポートを拡大 🦜🔗 MLflow 2.3のご紹介：ネイティブLLMのサポートと新機能による強化 - Qiita MLflow 2.3のHugging Faceトランスフォーマーのサポートを試す - Qiita MLflow 2.3のLangChainのサポートを試す - Qiita DatabricksでMLflow 2.3のOpenAI APIのサポートを試す - Qiita
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary LLMで実現された技術 Databricksのお客様におけるLLMユースケースデータQ&A: 知識へのアクセスを民主化非構造化データに関する構造化された洞察をシンプルに知識労働者の日常のタスクの効率を改善既存機械学習モデルの改善 • 今週のコールセンター口述記録に基づいたトップ 5の問題は何か • どのカスタマーレビューが、欠陥による問題を説明しているのか？それは、過去 2 週間でスパイクしたのか？ • コールセンタースタッフが過去すべてのサポートチケットに質問することが可能に • 自分の分析ニーズに最も合致するDeltaテーブルがどれかをユーザーが質問 • 自身の不正検知モデルに顧客フォーラム投稿を追加 • 顧客が記述したフィードバックに基づいて製品レコメンデーションモデルをチューニング • データに関する質問を行い、SQLクエリーのドラフトを取得 • ランディングページを説明し、HTMLコードのドラフトを取得 • パーソナライズされたマーケティングメッセージの自動化 37
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary より広範なAIユースケースにおけるLLM • 企業申請、収支報告、マーケットインテリジェンス • ESG戦略、取り組みの抽出 • 主訴の評価、不正や不法行為 • 署名、ポリシーレビューや比較の高速化 • カスタマーサービスサポート - 自動化、Q&Aなど • リスク管理文書のモデル • 定性的分析のための自動データ取り込み • 資産管理 & ネクストベストアクション • ポリシーや規制の検索エンジン • 新入社員のオンボーディング • 患者 / メンバーのエンゲージメント • R&D / 医療レポートの要約 • 顧客セグメンテーション & 感情分析 • ネクストベストアクション (処方) • 医療文献の合成 • 薬品用途の再設定 • 臨床試験分析 • パーソナライズされた治療 • 医療情報 / 効果の取得 & 要約 • 診療の判断 & ケア調整の意思決定のサポート • 医療教育 & トレーニング • 医療のコーディング & 請求 • 承認前の自動化 • アプリ内コンテンツ発見 / 検索 • コンテンツの翻訳 • コンテンツ作成 • コンテンツ製造 • コンテンツライブラリのメタデータタグ付け • パーソナライズされた Email/デジタリマーケティングの作成 • コンセプトアート (ゲーム) • 製品 / ゲームのレビュー • カスタマーサポート / コールセンターオペレーション • フィールドオペレーションサポート • 製品検索 • 画像ベースの検索 • カスタマーサービスのルーティング & Chat-bot • 製品レコメンデーション • パーソナライズされたコンテンツの生成 • 画像生成 • 店舗内キオスク • SEO最適化 • 競合 / 市場の要約 • 文書発見 • スマートコックピットのための会話型 AI • フィールドサービスのトラブルシュート & サポート • 規範的メンテナンスアクション • 技術的な要約 (SOPs, 作業指示など) • 日々の製造 / シフトのレビューのための分析の自動化 • OT開発チームの拡張 • 設計/エンジニアリングの変更分析 • トレーニング - ドメイン知識のキャプチャ & 普及サイバーセキュリティ • ログ / テレメトリデータに対する自然言語クエリー金融サービスヘルスケア & ライフサイエンス製造通信、メディア & エンターテイメント小売 & 消費財 • 事故調査のコパイロット • AI生成アーティファクトの検知 (マルウェア、ディープフェイクなど ) • セキュリティポリシーや脅威ナレッジベースの Q&Aや要約お客様からもたらされた稼働中の例のインベントリ
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary ヘルスケアにおける高優先度のLLMユースケース医療情報取得診療の意思決定サポート患者コミュニケーション & エンゲージメント医療の教育 & トレーニングヘルスケア専門家の医療情報へのアクセスを促進し、治療の特定や病気の理解を支援します患者データの分析を支援し、パターン特定や治療提案を通じた情報に基づく意思決定を実現しますチャットbotやバーチャルアシスタントをサポートし、患者コミュニケーションやパーソナライズされた健康アドバイスを通じたガイドを強化しますスキルの訓練を促進し、ヘルスケア専門家が技術の進歩でアップデートされるようにすることで、医療教育をスムーズにしますユースケースの領域説明データソース EHR, 医療者ノート , 主訴, 病歴, ラボ / 病理レポート, 医療ポリシー , 治療利用管理ガイドライン EHR, 主訴, 効果の説明 , 医療者ノート , ラボ / 病理レポート , 承認前申請書 EHR, コールセンターのログ , 主訴, 医療者ノート, ラボ / 病理レポート , 患者から報告された成果医療ポリシー , 治療利用管理ガイドライン ,医療研究 (JAMA)
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary ライフサイエンスにおける高優先度のLLMユースケース委託研究機関のレポート要約顧客セグメンテーションネクストベストアクション医療文献合成規制機関のレビューや承認に提出する R&D / グローバル医療の委託研究機関のレポート要約生成をスピードアップします顧客レビューに基づく感情分析や顧客セグメンテーションを実施します医療サービス提供者にセールス担当の記述を要約し、次のステップを提案するために活用します公開されている科学文献と内部のナレッジベースを処理、合成することで、最新の発見でアップデートされるようにし、新たな研究仮説を特定します委託先の研究レポート顧客レビュー , デモグラフィック情報 , CRM CRM, セールス担当の記述 Pubmed, 内部知識ベースユースケースの領域説明データソース
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary メディア&エンタメにおける高優先度 LLMユースケースコンテンツ発見 & 検索コンテンツの再パッケージ広告/マーケティング向けコンテンツ生成プレーヤーフィードバック消費者が見るものを探している際の「コールドスタート」問題を軽減します新たな資産を作成する際に、製作者がコンテンツのバックカタログをクイックかつ効率的に移動することを支援しますドラフトのコピーと画像を生成することで、メールや広告のコンテンツ作成を加速しますユーザーレビューを分析し、製品開発をガイドするために洞察を活用しますクリックストリーム , コンテンツのメタデータ動画資産, クローズキャプションファイル , コンテンツメタデータ動画, 画像, 文章オンラインゲーム (steamなど) ユースケース領域説明データソース
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary 通信における高優先度LLMユースケースカスタマーサポートフィールドオペレーションチャット / Q&Aを用いてカスタマーサポートのを自動化します技術者のトラブルシュートプロセスをシンプルにすることで、オンサイトにおける問題解決の時間を短縮します顧客アカウントデータ , 製品ガイド, 内部ドキュメント製品ガイド, 内部ドキュメントユースケース領域説明データソース根本原因分析問題の診断を容易にすることで、対顧客の問題解決の時間を短縮しますネットワークデータ
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Q&A botのデモンストレーション DatabricksにおけるLLM活用のデモ • ここでデモするQ&A botの構築に必要なものは以下の通りです。 • Q&Aのデータセット • OpenAI APIのキー(オープンソースのLLMを活用することも可能です) • Databricksワークスペース
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Q&A botのデモンストレーション DatabricksにおけるLLM活用のデモ • Q&A botの構築にLLMのファインチューニングは不要です。LangChainで紹介されているRetrieval Augumented Generationというアプローチです。 • 検索対象の回答をEmbeddingに変換してベクトルDBに拡張します。 • 検索文字列をEmbeddingに変換して、ベクトル DBとの類似検索を実行します。 • 検索にヒットしたドキュメントと質問文を LLMに渡して、適切な回答を生成させます。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary まとめ我々は以前からデータとAIの民主化を目指しています • 誰でもLLMを活用できるようにとの思いからDollyをリリースしました。 • これが、オープンソースLLMの流れの一助になったのではないかと考えています。 • 今ではLLM界隈の技術の進歩は非常に速く、今日時点でのベストなLLMが来月には陳腐化するということも起こりえます。 • このような状況下で、皆様のビジネス要件に応えるLLMアプリケーションを構築・運用していくためには、LLMのMLOps、LLMOpsを実現するような基盤が重要であると考えています。 • そのようなプラットフォームとしてDatabricksが皆様の取り組みのご支援ができたらと考えています。
©2023 Databricks Inc. — All rights reserved | Conﬁdential and
proprietary Thank you 46