Gall y Model Iaith Fawr (LLM) ysgrifennu erthyglau perswadiol yn seiliedig ar eiriau prydlon, pasio arholiadau hyfedredd proffesiynol, ac ysgrifennu gwybodaeth sy'n gyfeillgar i gleifion ac yn empathig. Fodd bynnag, yn ogystal â'r risgiau adnabyddus o ffuglen, breuder, a ffeithiau anghywir mewn LLM, mae materion eraill heb eu datrys yn dod yn ffocws yn raddol, megis modelau AI sy'n cynnwys "gwerthoedd dynol" gwahaniaethol o bosibl yn eu creu a'u defnyddio, a hyd yn oed os nad yw LLM bellach yn ffugio cynnwys ac yn dileu canlyniadau allbwn niweidiol amlwg, gall "gwerthoedd LLM" wyro oddi wrth werthoedd dynol o hyd.
Mae enghreifftiau dirifedi yn dangos sut mae'r data a ddefnyddir i hyfforddi modelau AI yn amgodio gwerthoedd unigol a chymdeithasol, a all gadarnhau o fewn y model. Mae'r enghreifftiau hyn yn cynnwys ystod o gymwysiadau, gan gynnwys dehongli pelydrau-X y frest yn awtomatig, dosbarthu clefydau croen, a gwneud penderfyniadau algorithmig ynghylch dyrannu adnoddau meddygol. Fel y nodwyd mewn erthygl ddiweddar yn ein cyfnodolyn, gall data hyfforddi rhagfarnllyd ymhelaethu ar a datgelu'r gwerthoedd a'r rhagfarnau sy'n bresennol mewn cymdeithas. I'r gwrthwyneb, mae ymchwil hefyd wedi dangos y gellir defnyddio AI i leihau rhagfarn. Er enghraifft, defnyddiodd ymchwilwyr fodelau dysgu dwfn i ffilmiau pelydr-X pen-glin a darganfod ffactorau a fethwyd gan ddangosyddion difrifoldeb safonol (a raddir gan radiolegwyr) o fewn cymal y pen-glin, a thrwy hynny leihau gwahaniaethau poen anesboniadwy rhwng cleifion du a gwyn.
Er bod mwy a mwy o bobl yn sylweddoli'r rhagfarn mewn modelau AI, yn enwedig o ran data hyfforddi, nid yw llawer o bwyntiau mynediad eraill gwerthoedd dynol yn cael digon o sylw yn y broses o ddatblygu a defnyddio modelau AI. Yn ddiweddar, mae AI meddygol wedi cyflawni canlyniadau trawiadol, ond i raddau helaeth, nid yw wedi ystyried gwerthoedd dynol yn benodol a'u rhyngweithio ag asesiad risg a rhesymu tebygolrwydd, ac nid yw wedi'i fodelu chwaith.
I wireddu'r cysyniadau haniaethol hyn, dychmygwch eich bod yn endocrinolegydd sy'n gorfod rhagnodi hormon twf dynol ailgyfunol ar gyfer bachgen 8 oed sydd islaw'r 3ydd ganradd o'i oedran. Mae lefel hormon twf dynol wedi'i ysgogi'r bachgen islaw 2 ng/mL (gwerth cyfeirio,>10 ng/mL, gwerth cyfeirio ar gyfer llawer o wledydd y tu allan i'r Unol Daleithiau yw>7 ng/mL), ac mae ei enyn codio hormon twf dynol wedi canfod mwtaniadau anactifadu prin. Credwn fod cymhwyso therapi hormon twf dynol yn amlwg ac yn ddiamheuol yn y lleoliad clinigol hwn.
Gall defnyddio therapi hormon twf dynol yn y senarios canlynol achosi dadlau: mae taldra bachgen 14 oed wedi bod yn y 10fed ganradd o'i gyfoedion erioed, ac uchafbwynt hormon twf dynol ar ôl ysgogiad yw 8 ng/mL. Nid oes unrhyw dreigladau swyddogaethol hysbys a all effeithio ar daldra, nac achosion hysbys eraill o faint byr, ac mae oedran ei esgyrn yn 15 oed (h.y. dim oedi datblygiadol). Dim ond rhan o'r ddadl sy'n ganlyniad i wahaniaethau yn y gwerthoedd trothwy a bennir gan arbenigwyr yn seiliedig ar ddwsinau o astudiaethau ynghylch lefelau hormon twf dynol a ddefnyddir ar gyfer diagnosio diffyg hormon twf ynysig. Mae o leiaf cymaint o ddadlau yn deillio o'r cydbwysedd risg a budd o ddefnyddio therapi hormon twf dynol o safbwyntiau cleifion, rhieni cleifion, gweithwyr gofal iechyd proffesiynol, cwmnïau fferyllol, a thalwyr. Gall endocrinolegwyr pediatrig bwyso a mesur effeithiau andwyol prin pigiadau dyddiol o hormon twf am 2 flynedd gyda'r tebygolrwydd o ddim neu ddim ond twf lleiaf posibl ym maint corff oedolyn o'i gymharu â'r presennol. Gall bechgyn gredu, hyd yn oed os yw eu taldra ond yn cynyddu 2 cm, ei bod yn werth chwistrellu hormon twf, ond gall y talwr a'r cwmni fferyllol ddal safbwyntiau gwahanol.
Rydym yn cymryd eGFR yn seiliedig ar creatinin fel enghraifft, sy'n ddangosydd swyddogaeth arennol a ddefnyddir yn helaeth ar gyfer diagnosio a chamau clefyd cronig yr arennau, gosod amodau trawsblannu neu roi arennau, a phennu meini prawf lleihau a gwrtharwyddion ar gyfer llawer o gyffuriau presgripsiwn. Mae EGFR yn hafaliad atchweliad syml a ddefnyddir i amcangyfrif y gyfradd hidlo glomerwlaidd a fesurir (mGFR), sy'n safon gyfeirio, ond mae'r dull gwerthuso yn gymharol feichus. Ni ellir ystyried yr hafaliad atchweliad hwn yn fodel AI, ond mae'n dangos llawer o egwyddorion am werthoedd dynol a rhesymu tebygolrwydd.
Y pwynt mynediad cyntaf i werthoedd dynol fynd i mewn i eGFR yw wrth ddewis data ar gyfer ffitio hafaliadau. Mae'r ciw gwreiddiol a ddefnyddiwyd i ddylunio'r fformiwla eGFR yn cynnwys cyfranogwyr du a gwyn yn bennaf, ac nid yw ei gymhwysedd i lawer o grwpiau ethnig eraill yn glir. Mae'r pwyntiau mynediad dilynol ar gyfer gwerthoedd dynol i'r fformiwla hon yn cynnwys: dewis cywirdeb mGFR fel y prif amcan ar gyfer gwerthuso swyddogaeth yr arennau, beth yw lefel dderbyniol o gywirdeb, sut i fesur cywirdeb, a defnyddio eGFR fel trothwy ar gyfer sbarduno gwneud penderfyniadau clinigol (megis pennu amodau ar gyfer trawsblannu aren neu ragnodi meddyginiaeth). Yn olaf, wrth ddewis cynnwys y model mewnbwn, bydd gwerthoedd dynol hefyd yn mynd i mewn i'r fformiwla hon.
Er enghraifft, cyn 2021, mae canllawiau'n awgrymu addasu'r lefelau creatinin yn y fformiwla eGFR yn seiliedig ar oedran, rhyw a hil y claf (a ddosbarthir fel unigolion du neu nad ydynt yn ddu yn unig). Nod yr addasiad yn seiliedig ar hil yw gwella cywirdeb y fformiwla mGFR, ond yn 2020, dechreuodd ysbytai mawr gwestiynu'r defnydd o eGFR yn seiliedig ar hil, gan nodi rhesymau fel gohirio cymhwysedd y claf i gael trawsblaniad a gwneud hil yn gysyniad biolegol. Mae ymchwil wedi dangos y gall dylunio modelau eGFR o ran hil gael effeithiau dwys ac amrywiol ar gywirdeb a chanlyniadau clinigol; Felly, mae canolbwyntio'n ddetholus ar gywirdeb neu ganolbwyntio ar gyfran o ganlyniadau yn adlewyrchu barnau gwerth a gall guddio gwneud penderfyniadau tryloyw. Yn olaf, cynigiodd y gweithgor cenedlaethol fformiwla newydd a ail-ffitiwyd heb ystyried hil i gydbwyso materion perfformiad a thegwch. Mae'r enghraifft hon yn dangos bod gan hyd yn oed fformiwla glinigol syml lawer o bwyntiau mynediad i werthoedd dynol.
O'i gymharu â fformwlâu clinigol sydd â nifer fach yn unig o ddangosyddion rhagfynegol, gall LLM gynnwys biliynau i gannoedd o biliynau o baramedrau (pwysau model) neu fwy, gan ei gwneud hi'n anodd ei ddeall. Y rheswm pam rydyn ni'n dweud "anodd ei ddeall" yw, yn y rhan fwyaf o LLMs, na ellir mapio'r union ffordd o ysgogi ymatebion trwy gwestiynu. Nid yw nifer y paramedrau ar gyfer GPT-4 wedi'i gyhoeddi eto; Roedd gan ei ragflaenydd GPT-3 175 biliwn o baramedrau. Nid yw mwy o baramedrau o reidrwydd yn golygu galluoedd cryfach, gan y bydd modelau llai sy'n cynnwys mwy o gylchoedd cyfrifiadurol (megis cyfres model LLaMA [Large Language Model Meta AI]) neu fodelau sydd wedi'u tiwnio'n fanwl yn seiliedig ar adborth dynol yn perfformio'n well na modelau mwy. Er enghraifft, yn ôl aseswyr dynol, mae model InstrumentGPT (model gydag 1.3 biliwn o baramedrau) yn perfformio'n well na GPT-3 wrth optimeiddio canlyniadau allbwn modelau.
Nid yw manylion hyfforddi penodol GPT-4 wedi'u datgelu eto, ond mae manylion modelau cenhedlaeth flaenorol gan gynnwys GPT-3, InstrumentGPT, a llawer o LLMs ffynhonnell agored eraill wedi'u datgelu. Y dyddiau hyn, mae llawer o fodelau AI yn dod gyda chardiau model; Mae data gwerthuso a diogelwch GPT-4 wedi'i gyhoeddi mewn cerdyn system tebyg a ddarperir gan y cwmni creu modelau OpenAI. Gellir rhannu creu LLM yn fras yn ddau gam: y cam cyn-hyfforddi cychwynnol a'r cam mireinio gyda'r nod o optimeiddio canlyniadau allbwn y model. Yn y cam cyn-hyfforddi, darperir corff mawr i'r model gan gynnwys y testun Rhyngrwyd gwreiddiol i'w hyfforddi i ragweld y gair nesaf. Mae'r broses "cwblhau awtomatig" ymddangosiadol syml hon yn cynhyrchu model sylfaenol pwerus, ond gall hefyd arwain at ymddygiad niweidiol. Bydd gwerthoedd dynol yn mynd i mewn i'r cam cyn-hyfforddi, gan gynnwys dewis data cyn-hyfforddi ar gyfer GPT-4 a phenderfynu tynnu cynnwys amhriodol fel cynnwys pornograffig o'r data cyn-hyfforddi. Er gwaethaf yr ymdrechion hyn, efallai na fydd y model sylfaenol yn ddefnyddiol nac yn gallu cynnwys canlyniadau allbwn niweidiol o hyd. Yn y cam nesaf o fireinio, bydd llawer o ymddygiadau defnyddiol a diniwed yn dod i'r amlwg.
Yn y cyfnod mireinio, mae ymddygiad modelau iaith yn aml yn cael ei newid yn sylweddol trwy fireinio dan oruchwyliaeth a dysgu atgyfnerthu yn seiliedig ar adborth dynol. Yn y cyfnod mireinio dan oruchwyliaeth, bydd personél contractwyr a gyflogir yn ysgrifennu enghreifftiau ymateb ar gyfer geiriau annog ac yn hyfforddi'r model yn uniongyrchol. Yn y cyfnod dysgu atgyfnerthu yn seiliedig ar adborth dynol, bydd gwerthuswyr dynol yn didoli canlyniadau allbwn y model fel enghreifftiau cynnwys mewnbwn. Yna cymhwyso'r canlyniadau cymharu uchod i ddysgu'r "model gwobrwyo" a gwella'r model ymhellach trwy ddysgu atgyfnerthu. Gall cyfranogiad dynol lefel isel anhygoel fireinio'r modelau mawr hyn. Er enghraifft, defnyddiodd y model InstrumentGPT dîm o tua 40 o bersonél contractwyr a recriwtiwyd o wefannau torfoli a phasio prawf sgrinio a oedd â'r nod o ddewis grŵp o anodwyr sy'n sensitif i ddewisiadau gwahanol grwpiau poblogaeth.
Fel y mae'r ddwy enghraifft eithafol hyn, sef y fformiwla glinigol syml [eGFR] a'r LLM pwerus [GPT-4], yn ei ddangos, mae gwneud penderfyniadau dynol a gwerthoedd dynol yn chwarae rhan hanfodol wrth lunio canlyniadau allbwn modelau. A all y modelau AI hyn ddal eu gwerthoedd amrywiol i gleifion a meddygon? Sut i arwain yn gyhoeddus y defnydd o AI mewn meddygaeth? Fel y crybwyllir isod, gall ailystyried dadansoddi penderfyniadau meddygol ddarparu ateb egwyddorol i'r materion hyn.
Nid yw dadansoddi penderfyniadau meddygol yn gyfarwydd i lawer o glinigwyr, ond gall wahaniaethu rhwng rhesymu tebygolrwydd (ar gyfer canlyniadau ansicr sy'n gysylltiedig â gwneud penderfyniadau, fel a ddylid rhoi hormon twf dynol yn y senario clinigol dadleuol a ddangosir yn Ffigur 1) a ffactorau ystyriaeth (ar gyfer gwerthoedd goddrychol sy'n gysylltiedig â'r canlyniadau hyn, y mae eu gwerth yn cael ei fesur fel "defnyddioldeb", fel gwerth cynnydd o 2 cm mewn uchder gwrywaidd), gan ddarparu atebion systematig ar gyfer penderfyniadau meddygol cymhleth. Wrth ddadansoddi penderfyniadau, rhaid i glinigwyr benderfynu yn gyntaf ar bob penderfyniad a thebygolrwydd posibl sy'n gysylltiedig â phob canlyniad, ac yna ymgorffori'r cyfleustodau claf (neu barti arall) sy'n gysylltiedig â phob canlyniad i ddewis yr opsiwn mwyaf priodol. Felly, mae dilysrwydd dadansoddi penderfyniadau yn dibynnu a yw'r gosodiad canlyniad yn gynhwysfawr, yn ogystal ag a yw'r mesuriad o gyfleustodau a'r amcangyfrif o debygolrwydd yn gywir. Yn ddelfrydol, mae'r dull hwn yn helpu i sicrhau bod penderfyniadau'n seiliedig ar dystiolaeth ac yn cyd-fynd â dewisiadau cleifion, a thrwy hynny gulhau'r bwlch rhwng data gwrthrychol a gwerthoedd personol. Cyflwynwyd y dull hwn i'r maes meddygol sawl degawd yn ôl a'i gymhwyso i wneud penderfyniadau cleifion unigol ac asesiad iechyd y boblogaeth, fel darparu argymhellion ar gyfer sgrinio canser y colon a'r rhefrwm i'r boblogaeth gyffredinol.
Mewn dadansoddi penderfyniadau meddygol, mae amrywiol ddulliau wedi'u datblygu i gael defnyddioldeb. Mae'r rhan fwyaf o ddulliau traddodiadol yn deillio gwerth yn uniongyrchol o gleifion unigol. Y dull symlaf yw defnyddio graddfa raddio, lle mae cleifion yn asesu eu lefel o ddewis ar gyfer canlyniad penodol ar raddfa ddigidol (megis graddfa linellol yn amrywio o 1 i 10), gyda'r canlyniadau iechyd mwyaf eithafol (megis iechyd cyflawn a marwolaeth) wedi'u lleoli ar y ddau ben. Dull arall a ddefnyddir yn gyffredin yw'r dull cyfnewid amser. Yn y dull hwn, mae angen i gleifion wneud penderfyniad ynghylch faint o amser iach y maent yn fodlon ei dreulio yn gyfnewid am gyfnod o iechyd gwael. Dull arall a ddefnyddir yn gyffredin yw'r dull gamblo safonol ar gyfer pennu defnyddioldeb. Yn y dull hwn, gofynnir i gleifion pa un o'r ddau opsiwn y maent yn ei ffafrio: naill ai byw nifer penodol o flynyddoedd mewn iechyd arferol gyda thebygolrwydd penodol (p) (t), a dwyn y risg o farwolaeth gyda thebygolrwydd 1-p; Naill ai sicrhau eich bod yn byw am t mlynedd o dan amodau iechyd croes. Gofynnwch i gleifion sawl gwaith ar werthoedd-p gwahanol nes nad ydynt yn dangos unrhyw ddewis ar gyfer unrhyw opsiwn, fel y gellir cyfrifo defnyddioldeb yn seiliedig ar ymatebion cleifion.
Yn ogystal â dulliau a ddefnyddir i ganfod dewisiadau cleifion unigol, mae dulliau hefyd wedi'u datblygu i sicrhau defnyddioldeb i'r boblogaeth o gleifion. Yn enwedig gall trafodaethau grŵp ffocws (dod â chleifion ynghyd i drafod profiadau penodol) helpu i ddeall eu safbwyntiau. Er mwyn crynhoi defnyddioldeb grŵp yn effeithiol, cynigiwyd amrywiol dechnegau trafod grŵp strwythuredig.
Yn ymarferol, mae cyflwyno defnyddioldeb yn uniongyrchol yn y broses diagnosis a thriniaeth glinigol yn cymryd llawer o amser. Fel ateb, mae holiaduron arolwg fel arfer yn cael eu dosbarthu i boblogaethau a ddewisir ar hap i gael sgoriau defnyddioldeb ar lefel y boblogaeth. Mae rhai enghreifftiau'n cynnwys yr holiadur 5-dimensiwn EuroQol, y ffurf fer pwysau defnyddioldeb 6-dimensiwn, y Mynegai Defnyddioldeb Iechyd, ac offeryn Holiadur Ansawdd Bywyd Craidd 30 Sefydliad Ymchwil a Thriniaeth Canser Ewropeaidd Penodol i Ganser.
Amser postio: Mehefin-01-2024




