社内で使う人が増えたから、検証ポイントを整理したい。ソース、日付、固有名詞あたり?
>>1 具体例くれ
どんな回答が「それっぽいけど違う」判定になったん?
マジで分からん
技術的に言うと〜
ソース、日付、固有名詞に加えて「引用文が実在するか」だな
論文名だけ本物で中身のページ番号が架空とか普通にある
MECEに分解すると
1 ソースの実在
2 時点の妥当性
3 固有名詞の整合
4 数字の根拠
このへんじゃね
>>3 引用文が実在するかって、URL開いて同じこと書いてあるか見るってこと?
それともPDF全部読むの?
>>6 は?一次ソース見ろ
要約サイト見て一致しましたとか言うのが一番あぶない
>>7 いきなりキレててワロタw
一次ソースおじさん来たw
日付ズレはかなりあると思う
「2024年時点では最新」みたいな顔で、実は2021年の記事を混ぜてくる
仮説→検証でまず日付を見るべき
>>9 これって古い情報を最新っぽく言うってこと?
逆に未来の日付を出すパターンもある?
未来の日付で社内規定できましたは怖すぎwwwww
誰が作ったんだよw
固有名詞は表記揺れも見る
会社名、製品名、法律名、API名あたり
1文字違うだけで別物の顔してくるからな
>>7 一次ソース至上主義は分かるが、業務で毎回PDF全部読むのはSo what?が不足
チェック粒度を決めないと運用死ぬ
>>13 だから重要度で分けろって話だろ
契約、金、法務、医療っぽい話は深掘り
昼飯の店なら知らんがな
>>14 昼飯の店も間違えると部長が不機嫌になるんだがw
リスク高いw
今北
とりあえず「出典あります」って言われても信じるなってこと?
>>16 そう
「出典あります」はゴールじゃなくて入口
実在するか、日付は合うか、本文が主張を支えてるか、ここまで見ないと危ない
>>17
架空引用はタイトルでまず臭う
「〜に関する包括的ガイドライン」みたいな万能名詞が並んでるやつ
技術的に言うとテンプレ穴埋め感が出る
>>18
これってタイトルをそのまま検索すればいいの?
PDF名だけ検索して出なかったらアウト?
マジで分からん
Twitterな(Xとは言わない)で昔よく見たわ
それっぽい論文タイトル貼ってドヤるやつ
あの頃のTwitterはまだ集合知で殴れた
>>19
タイトル完全一致で出ない、発行元サイト内検索でも出ない、URLの階層が変
この3点そろったらだいぶ黒い
あとPDFなのにページ番号の引用が妙にピンポイントすぎる
>>21
ページ番号ピンポイントってどういうこと?
「p.14に書いてある」とか普通じゃないの?
>>22
普通ではある
ただAIの嘘引用はp.12とかp.34とか、本文確認するとそこに該当箇所がないことが多い
仕組みとしては数字も文章の一部としてそれっぽく出してるだけ
社内資料で確認してないPDFを出典扱いするのはモラル的にアウトだろ
ミスじゃなくて責任転嫁になる
>>24
正論なんだけど会議でそれ言うと空気死ぬやつ
Twitterならまだ燃やして終わりだった
今試しに「AI活用業務ガイドライン 2024 PDF」で出されたやつ検索したら出ないんだが
これ存在しないPDFってことある?
>>26
ある
発行元、タイトル、日付、URLを分解して検索しろ
1個でも実在してると全部本物っぽく見えるのが罠
それAIでいいだろ
AIに引用チェックさせれば人間がPDF探す必要ない
非効率すぎる
>>28
そのAIが架空PDF出してる話をしてるんだが
にわか乙
>>29
別のAIに検証させればいい
モデルを分ければ精度上がる
シンギュラリティ来たら終わり
>>30
AI同士で幻覚を相互承認するの、青バッジキモい界隈みたいで嫌だな
>>27
発行元だけ本物でタイトルが偽物とかある?
たとえば厚労省は実在するけど資料名が存在しないみたいな
>>32
それが一番多い気がする
固有名詞だけ本物説
省庁名、企業名、規格名は本物で、その下に架空文書をぶら下げる
>>33
それ悪質だな
実在組織の信用にただ乗りしてる
それは人としてどうなの
>>34
人じゃないからセーフ
AIに人間のモラルを当てるのがレガシー
>>35
利用する人間の責任の話だろ
正論言って何が悪い
固有名詞だけ本物、Twitterのデマでもあったな
実在大学教授の名前だけ借りて発言は捏造
あの頃のTwitterは良かったとか言ってる場合じゃなかった
>>33
じゃあ見抜くには固有名詞を信じないで、文書タイトルと本文を別々に見るってこと?
>>38
そう
「誰が」「いつ」「どの文書の」「どの箇所で」言ってるかを分ける
4つ全部つながって初めて引用になる
>>39
URLがある場合は?
URLっぽい文字列まで出されたら俺は信じそう
>>40
URLは開け
開けないならアウト寄り
開けてもトップページに飛ばされる、PDF名だけそれっぽい、ドメイン違うなら疑う
ググレカス案件だけど社内だとここが抜ける
>>41
人間がURLを開く作業がもう古い
ブラウザ操作もAIに任せろ
>>42
任せたAIが404見て「内容は確認できました」とか言い出す未来が見える
>>43
笑い話じゃなくて、それで意思決定したら被害出るだろ
モラル的にアウトだろ
存在しないPDF発覚した場合ってどう扱うの?
その回答全部捨てる?
一部だけ疑う?
>>45
最低でもその回答の引用部分は全部再検証
1個架空が混ざった時点で、他も同じ生成パターンの可能性がある
技術的に言うと信頼スコアが一気に落ちる
>>46
信頼スコアって言葉も便利すぎるな
MECEに分解すると、引用の真偽、文脈の真偽、結論の真偽で別管理すべき
>>47
出た信頼スコアの信頼スコアwwwww
もう全部疑うスレで草
>>47
技術的に言うと信頼スコアは比喩な
本当にスコアリングするなら根拠のsource graph見る
用語だけ拾って噛みつくのはにわか乙
>>49
source graphとか急に強そうな装備出すな
それエアプだろ、攻略wikiに載ってないぞ
社内AI活用ルール作った会社が架空判例引用して炎上してるぞ
またチェック表だけ立派で運用死んでるやつ
>>51
チェック表読む時点で無理
社不なので無理
前職3ヶ月で辞めた理由もたぶん俺の記憶が捏造
>>51
その炎上の一次ソースは?
まとめサイト匂わせだけだとSo what?が不足
>>53
一次ソース見に行ったら消えてた
でもスクショが回ってる
この時点でまた燃えてる、対応遅すぎだろ
>>54
消えた一次ソースとスクショは別物として扱え
スクショは画像内テキスト、投稿日時、アカウントIDを逆照合
ググレカス以前に保存者を疑え
>>55
保存者を疑えwwwww
もう人間関係ナーフされてて草
>>56
疑心暗鬼デバフ入ってる
でもAIの回答検証RTAなら、まず固有名詞、日付、URL、引用文の4点チェックで走れ
>>57
4点チェックもチェック表として配るなら危ない
仮説→検証の順番を固定すると、表にない嘘を見逃す
>>58
チェック表をチェックするチェック表が必要ってこと?
無理、詰んだ
>>59
チェック表のメタチェック表wwwww
大草原不可避
ここまでのレス内用語を逆照合した
信頼スコア、source graph、4点チェック、メタチェック表
半分くらい雰囲気で言ってる可能性あるぞ
>>61
お前のsource graphが一番怪しいんだが
ボスが自分の弱点属性隠してるやつ
>>62
source graphは一般名詞として使っただけ
製品名っぽく聞こえたならそれは受け手の問題
にわか乙
>>63
一般名詞っぽく言うのがAI回答の手口って話じゃなかったか
また燃える流れだぞ
>>64
仮説: 技術オタクもそれっぽい用語で権威付けしている
検証: その用語が既存概念か、本人の造語か、文脈上必要かを見る
>>65
住民まで監査対象wwwww
5chに内部統制持ち込むなw
俺、昨日読んだ記事のタイトル思い出せないのに内容だけ覚えてる
これ人間の記憶もAI回答と同じでは
>>67
仕組みとしては人間の記憶も再構成だから普通に怪しい
ただし外部ソースで訂正できる点が違う
自信満々な記憶ほど検証対象
>>68
記憶に命中率ステータス表示してほしい
俺の大学時代の武勇伝たぶん全部ナーフ済み
人間の記憶ソースにした謝罪文、だいたい炎上してるぞ
記憶違いでしたで済ませようとして二次炎上するやつ
>>70
記憶を根拠にするなら、いつ、どこで、誰から、何を聞いたかに分解
So what?は、その記憶で意思決定していいのか
>>71
俺の記憶「たぶん昔見た」しかないwww
意思決定したら会社終わるw
偽チェック表疑惑あるな
項目がやたら整ってる、例が汎用的、例外条件がない、責任者が書いてない
こういう表はAI生成率高い
>>73
うちの社内ルール全部それなんだが
責任者空欄、例だけ立派
就職はもう詰んだ
>>73
チェック表にもレアリティつけようぜ
責任者ありSSR、日付ありSR、項目だけ整ってるN
エアプ表は即売却
>>75
ふざけてるようで有効
運用責任、更新日、適用範囲、例外処理がない表は業務フローに乗せるべきではない
>>76
適用範囲なしのチェック表で全社展開して燃えるの、あるあるすぎる
また燃えてるって言う準備できてる
このスレのレスも誰かチェック表に入れて検証してそうw
俺の草の数まで逆照合されたら草不可避wwwww
>>78
草の数は検証しなくていい
ただ、頻出語から本人性を推定するstylometryはある
技術的に言うと書き手推定な
>>79
本人性まで疑われたらもう何も書けない
社不なので無理
このレスも俺が書いた記憶が後で怪しくなる
>>80
技術的に言うと本人性チェックまで入れると検証対象が回答から発言者にズレる
仕組みとしては別問題
そこ混ぜると表が爆発する
MECEに分解すると
1 ソース確認
2 日付確認
3 固有名詞確認
4 引用確認
5 文体確認
6 例外確認
7 目的確認
8 責任確認
あれ、MECEじゃないな
>>83
閉じるなよ
仕事で使うなら読む責任あるだろ
それは人としてどうなの
>>84
HSP気質なんで責任って言葉だけで動悸する
傷つくわ…
>>82
その表、検証軸と運用軸と心理軸が混ざってる
にわか乙と言いたいが、社内資料だいたいこれ
仮説→検証で回すなら
まず何を防ぎたいのかを決めるべき
誤情報なのか、責任逃れなのか、上司の機嫌なのかで設計が違う
>>87
最後だけ解像度高いのやめろ
うちは上司の機嫌検知AIが必要
社内運用案にするなら最低限、誰がチェックして誰が承認するか決めろよ
責任者なしでAIのせいにするのはモラル的にアウトだろ
>>89
承認フロー増やすと誰も使わなくなる
技術的に言うと運用負荷で死ぬ
運用負荷で死ぬ、言い方が強くて傷つくわ…
でもチェック項目20個は繊細さんじゃなくても泣く
チェック項目は3層にすればいい
必須、推奨、任意
So what?が不足してる項目は任意へ落とす
>>92
任意って書いた瞬間に全部やらない
3ヶ月で辞めた俺でもわかる
>>93
全部やらない前提で話すのやめろ
正論言って何が悪い
架空引用だけなら
引用文で検索、出典ドメイン確認、著者名確認、発行日確認、Wayback確認、DOI確認
ここまでで普通の人は離脱する
>>95
Waybackの時点で俺の昼休み終わる
就職はもう詰んだ
みんな検証しろって言うけど、検証できない人を責める空気もつらい
HSP気質なんで、できる人だけ残る運用はしんどい
>>97
そこは教育コストとして積むべき
ただし教育資料にも検証が必要
資料の検証手順の検証手順が必要になる
>>98
再帰してて草
技術的に言うと無限ループ
終了条件を定義しろ
終了条件は人間が責任を持って決めるしかない
AIの回答を使う以上、最後は人間の判断だろ
それは逃げるなよ