baner_tudalen

newyddion

Gall y Model Iaith Fawr (LLM) ysgrifennu erthyglau perswadiol yn seiliedig ar eiriau prydlon, pasio arholiadau hyfedredd proffesiynol, ac ysgrifennu gwybodaeth sy'n gyfeillgar i gleifion ac yn empathig. Fodd bynnag, yn ogystal â'r risgiau adnabyddus o ffuglen, breuder, a ffeithiau anghywir mewn LLM, mae materion eraill heb eu datrys yn dod yn ffocws yn raddol, megis modelau AI sy'n cynnwys "gwerthoedd dynol" gwahaniaethol o bosibl yn eu creu a'u defnyddio, a hyd yn oed os nad yw LLM bellach yn ffugio cynnwys ac yn dileu canlyniadau allbwn niweidiol amlwg, gall "gwerthoedd LLM" wyro oddi wrth werthoedd dynol o hyd.

 

Mae enghreifftiau dirifedi yn dangos sut mae'r data a ddefnyddir i hyfforddi modelau AI yn amgodio gwerthoedd unigol a chymdeithasol, a all gadarnhau o fewn y model. Mae'r enghreifftiau hyn yn cynnwys ystod o gymwysiadau, gan gynnwys dehongli pelydrau-X y frest yn awtomatig, dosbarthu clefydau croen, a gwneud penderfyniadau algorithmig ynghylch dyrannu adnoddau meddygol. Fel y nodwyd mewn erthygl ddiweddar yn ein cyfnodolyn, gall data hyfforddi rhagfarnllyd ymhelaethu ar a datgelu'r gwerthoedd a'r rhagfarnau sy'n bresennol mewn cymdeithas. I'r gwrthwyneb, mae ymchwil hefyd wedi dangos y gellir defnyddio AI i leihau rhagfarn. Er enghraifft, defnyddiodd ymchwilwyr fodelau dysgu dwfn i ffilmiau pelydr-X pen-glin a darganfod ffactorau a fethwyd gan ddangosyddion difrifoldeb safonol (a raddir gan radiolegwyr) o fewn cymal y pen-glin, a thrwy hynny leihau gwahaniaethau poen anesboniadwy rhwng cleifion du a gwyn.

Er bod mwy a mwy o bobl yn sylweddoli'r rhagfarn mewn modelau AI, yn enwedig o ran data hyfforddi, nid yw llawer o bwyntiau mynediad eraill gwerthoedd dynol yn cael digon o sylw yn y broses o ddatblygu a defnyddio modelau AI. Yn ddiweddar, mae AI meddygol wedi cyflawni canlyniadau trawiadol, ond i raddau helaeth, nid yw wedi ystyried gwerthoedd dynol yn benodol a'u rhyngweithio ag asesiad risg a rhesymu tebygolrwydd, ac nid yw wedi'i fodelu chwaith.

 

I wireddu'r cysyniadau haniaethol hyn, dychmygwch eich bod yn endocrinolegydd sy'n gorfod rhagnodi hormon twf dynol ailgyfunol ar gyfer bachgen 8 oed sydd islaw'r 3ydd ganradd o'i oedran. Mae lefel hormon twf dynol wedi'i ysgogi'r bachgen islaw 2 ng/mL (gwerth cyfeirio,>10 ng/mL, gwerth cyfeirio ar gyfer llawer o wledydd y tu allan i'r Unol Daleithiau yw>7 ng/mL), ac mae ei enyn codio hormon twf dynol wedi canfod mwtaniadau anactifadu prin. Credwn fod cymhwyso therapi hormon twf dynol yn amlwg ac yn ddiamheuol yn y lleoliad clinigol hwn.

Gall defnyddio therapi hormon twf dynol yn y senarios canlynol achosi dadlau: mae taldra bachgen 14 oed wedi bod yn y 10fed ganradd o'i gyfoedion erioed, ac uchafbwynt hormon twf dynol ar ôl ysgogiad yw 8 ng/mL. Nid oes unrhyw dreigladau swyddogaethol hysbys a all effeithio ar daldra, nac achosion hysbys eraill o faint byr, ac mae oedran ei esgyrn yn 15 oed (h.y. dim oedi datblygiadol). Dim ond rhan o'r ddadl sy'n ganlyniad i wahaniaethau yn y gwerthoedd trothwy a bennir gan arbenigwyr yn seiliedig ar ddwsinau o astudiaethau ynghylch lefelau hormon twf dynol a ddefnyddir ar gyfer diagnosio diffyg hormon twf ynysig. Mae o leiaf cymaint o ddadlau yn deillio o'r cydbwysedd risg a budd o ddefnyddio therapi hormon twf dynol o safbwyntiau cleifion, rhieni cleifion, gweithwyr gofal iechyd proffesiynol, cwmnïau fferyllol, a thalwyr. Gall endocrinolegwyr pediatrig bwyso a mesur effeithiau andwyol prin pigiadau dyddiol o hormon twf am 2 flynedd gyda'r tebygolrwydd o ddim neu ddim ond twf lleiaf posibl ym maint corff oedolyn o'i gymharu â'r presennol. Gall bechgyn gredu, hyd yn oed os yw eu taldra ond yn cynyddu 2 cm, ei bod yn werth chwistrellu hormon twf, ond gall y talwr a'r cwmni fferyllol ddal safbwyntiau gwahanol.

 

Rydym yn cymryd eGFR yn seiliedig ar creatinin fel enghraifft, sy'n ddangosydd swyddogaeth arennol a ddefnyddir yn helaeth ar gyfer diagnosio a chamau clefyd cronig yr arennau, gosod amodau trawsblannu neu roi arennau, a phennu meini prawf lleihau a gwrtharwyddion ar gyfer llawer o gyffuriau presgripsiwn. Mae EGFR yn hafaliad atchweliad syml a ddefnyddir i amcangyfrif y gyfradd hidlo glomerwlaidd a fesurir (mGFR), sy'n safon gyfeirio, ond mae'r dull gwerthuso yn gymharol feichus. Ni ellir ystyried yr hafaliad atchweliad hwn yn fodel AI, ond mae'n dangos llawer o egwyddorion am werthoedd dynol a rhesymu tebygolrwydd.

Y pwynt mynediad cyntaf i werthoedd dynol fynd i mewn i eGFR yw wrth ddewis data ar gyfer ffitio hafaliadau. Mae'r ciw gwreiddiol a ddefnyddiwyd i ddylunio'r fformiwla eGFR yn cynnwys cyfranogwyr du a gwyn yn bennaf, ac nid yw ei gymhwysedd i lawer o grwpiau ethnig eraill yn glir. Mae'r pwyntiau mynediad dilynol ar gyfer gwerthoedd dynol i'r fformiwla hon yn cynnwys: dewis cywirdeb mGFR fel y prif amcan ar gyfer gwerthuso swyddogaeth yr arennau, beth yw lefel dderbyniol o gywirdeb, sut i fesur cywirdeb, a defnyddio eGFR fel trothwy ar gyfer sbarduno gwneud penderfyniadau clinigol (megis pennu amodau ar gyfer trawsblannu aren neu ragnodi meddyginiaeth). Yn olaf, wrth ddewis cynnwys y model mewnbwn, bydd gwerthoedd dynol hefyd yn mynd i mewn i'r fformiwla hon.

Er enghraifft, cyn 2021, mae canllawiau'n awgrymu addasu'r lefelau creatinin yn y fformiwla eGFR yn seiliedig ar oedran, rhyw a hil y claf (a ddosbarthir fel unigolion du neu nad ydynt yn ddu yn unig). Nod yr addasiad yn seiliedig ar hil yw gwella cywirdeb y fformiwla mGFR, ond yn 2020, dechreuodd ysbytai mawr gwestiynu'r defnydd o eGFR yn seiliedig ar hil, gan nodi rhesymau fel gohirio cymhwysedd y claf i gael trawsblaniad a gwneud hil yn gysyniad biolegol. Mae ymchwil wedi dangos y gall dylunio modelau eGFR o ran hil gael effeithiau dwys ac amrywiol ar gywirdeb a chanlyniadau clinigol; Felly, mae canolbwyntio'n ddetholus ar gywirdeb neu ganolbwyntio ar gyfran o ganlyniadau yn adlewyrchu barnau gwerth a gall guddio gwneud penderfyniadau tryloyw. Yn olaf, cynigiodd y gweithgor cenedlaethol fformiwla newydd a ail-ffitiwyd heb ystyried hil i gydbwyso materion perfformiad a thegwch. Mae'r enghraifft hon yn dangos bod gan hyd yn oed fformiwla glinigol syml lawer o bwyntiau mynediad i werthoedd dynol.

Meddyg gyda realiti rhithwir mewn ystafell lawdriniaeth yn yr ysbyty. Llawfeddyg yn dadansoddi canlyniad profion calon claf ac anatomeg ddynol ar ryngwyneb rhithwir dyfodolaidd digidol technolegol, holograffig digidol, cysyniad arloesol mewn gwyddoniaeth a meddygaeth.

O'i gymharu â fformwlâu clinigol sydd â nifer fach yn unig o ddangosyddion rhagfynegol, gall LLM gynnwys biliynau i gannoedd o biliynau o baramedrau (pwysau model) neu fwy, gan ei gwneud hi'n anodd ei ddeall. Y rheswm pam rydyn ni'n dweud "anodd ei ddeall" yw, yn y rhan fwyaf o LLMs, na ellir mapio'r union ffordd o ysgogi ymatebion trwy gwestiynu. Nid yw nifer y paramedrau ar gyfer GPT-4 wedi'i gyhoeddi eto; Roedd gan ei ragflaenydd GPT-3 175 biliwn o baramedrau. Nid yw mwy o baramedrau o reidrwydd yn golygu galluoedd cryfach, gan y bydd modelau llai sy'n cynnwys mwy o gylchoedd cyfrifiadurol (megis cyfres model LLaMA [Large Language Model Meta AI]) neu fodelau sydd wedi'u tiwnio'n fanwl yn seiliedig ar adborth dynol yn perfformio'n well na modelau mwy. Er enghraifft, yn ôl aseswyr dynol, mae model InstrumentGPT (model gydag 1.3 biliwn o baramedrau) yn perfformio'n well na GPT-3 wrth optimeiddio canlyniadau allbwn modelau.

Nid yw manylion hyfforddi penodol GPT-4 wedi'u datgelu eto, ond mae manylion modelau cenhedlaeth flaenorol gan gynnwys GPT-3, InstrumentGPT, a llawer o LLMs ffynhonnell agored eraill wedi'u datgelu. Y dyddiau hyn, mae llawer o fodelau AI yn dod gyda chardiau model; Mae data gwerthuso a diogelwch GPT-4 wedi'i gyhoeddi mewn cerdyn system tebyg a ddarperir gan y cwmni creu modelau OpenAI. Gellir rhannu creu LLM yn fras yn ddau gam: y cam cyn-hyfforddi cychwynnol a'r cam mireinio gyda'r nod o optimeiddio canlyniadau allbwn y model. Yn y cam cyn-hyfforddi, darperir corff mawr i'r model gan gynnwys y testun Rhyngrwyd gwreiddiol i'w hyfforddi i ragweld y gair nesaf. Mae'r broses "cwblhau awtomatig" ymddangosiadol syml hon yn cynhyrchu model sylfaenol pwerus, ond gall hefyd arwain at ymddygiad niweidiol. Bydd gwerthoedd dynol yn mynd i mewn i'r cam cyn-hyfforddi, gan gynnwys dewis data cyn-hyfforddi ar gyfer GPT-4 a phenderfynu tynnu cynnwys amhriodol fel cynnwys pornograffig o'r data cyn-hyfforddi. Er gwaethaf yr ymdrechion hyn, efallai na fydd y model sylfaenol yn ddefnyddiol nac yn gallu cynnwys canlyniadau allbwn niweidiol o hyd. Yn y cam nesaf o fireinio, bydd llawer o ymddygiadau defnyddiol a diniwed yn dod i'r amlwg.

Yn y cyfnod mireinio, mae ymddygiad modelau iaith yn aml yn cael ei newid yn sylweddol trwy fireinio dan oruchwyliaeth a dysgu atgyfnerthu yn seiliedig ar adborth dynol. Yn y cyfnod mireinio dan oruchwyliaeth, bydd personél contractwyr a gyflogir yn ysgrifennu enghreifftiau ymateb ar gyfer geiriau annog ac yn hyfforddi'r model yn uniongyrchol. Yn y cyfnod dysgu atgyfnerthu yn seiliedig ar adborth dynol, bydd gwerthuswyr dynol yn didoli canlyniadau allbwn y model fel enghreifftiau cynnwys mewnbwn. Yna cymhwyso'r canlyniadau cymharu uchod i ddysgu'r "model gwobrwyo" a gwella'r model ymhellach trwy ddysgu atgyfnerthu. Gall cyfranogiad dynol lefel isel anhygoel fireinio'r modelau mawr hyn. Er enghraifft, defnyddiodd y model InstrumentGPT dîm o tua 40 o bersonél contractwyr a recriwtiwyd o wefannau torfoli a phasio prawf sgrinio a oedd â'r nod o ddewis grŵp o anodwyr sy'n sensitif i ddewisiadau gwahanol grwpiau poblogaeth.

Fel y mae'r ddwy enghraifft eithafol hyn, sef y fformiwla glinigol syml [eGFR] a'r LLM pwerus [GPT-4], yn ei ddangos, mae gwneud penderfyniadau dynol a gwerthoedd dynol yn chwarae rhan hanfodol wrth lunio canlyniadau allbwn modelau. A all y modelau AI hyn ddal eu gwerthoedd amrywiol i gleifion a meddygon? Sut i arwain yn gyhoeddus y defnydd o AI mewn meddygaeth? Fel y crybwyllir isod, gall ailystyried dadansoddi penderfyniadau meddygol ddarparu ateb egwyddorol i'r materion hyn.

 

Nid yw dadansoddi penderfyniadau meddygol yn gyfarwydd i lawer o glinigwyr, ond gall wahaniaethu rhwng rhesymu tebygolrwydd (ar gyfer canlyniadau ansicr sy'n gysylltiedig â gwneud penderfyniadau, fel a ddylid rhoi hormon twf dynol yn y senario clinigol dadleuol a ddangosir yn Ffigur 1) a ffactorau ystyriaeth (ar gyfer gwerthoedd goddrychol sy'n gysylltiedig â'r canlyniadau hyn, y mae eu gwerth yn cael ei fesur fel "defnyddioldeb", fel gwerth cynnydd o 2 cm mewn uchder gwrywaidd), gan ddarparu atebion systematig ar gyfer penderfyniadau meddygol cymhleth. Wrth ddadansoddi penderfyniadau, rhaid i glinigwyr benderfynu yn gyntaf ar bob penderfyniad a thebygolrwydd posibl sy'n gysylltiedig â phob canlyniad, ac yna ymgorffori'r cyfleustodau claf (neu barti arall) sy'n gysylltiedig â phob canlyniad i ddewis yr opsiwn mwyaf priodol. Felly, mae dilysrwydd dadansoddi penderfyniadau yn dibynnu a yw'r gosodiad canlyniad yn gynhwysfawr, yn ogystal ag a yw'r mesuriad o gyfleustodau a'r amcangyfrif o debygolrwydd yn gywir. Yn ddelfrydol, mae'r dull hwn yn helpu i sicrhau bod penderfyniadau'n seiliedig ar dystiolaeth ac yn cyd-fynd â dewisiadau cleifion, a thrwy hynny gulhau'r bwlch rhwng data gwrthrychol a gwerthoedd personol. Cyflwynwyd y dull hwn i'r maes meddygol sawl degawd yn ôl a'i gymhwyso i wneud penderfyniadau cleifion unigol ac asesiad iechyd y boblogaeth, fel darparu argymhellion ar gyfer sgrinio canser y colon a'r rhefrwm i'r boblogaeth gyffredinol.

 

Mewn dadansoddi penderfyniadau meddygol, mae amrywiol ddulliau wedi'u datblygu i gael defnyddioldeb. Mae'r rhan fwyaf o ddulliau traddodiadol yn deillio gwerth yn uniongyrchol o gleifion unigol. Y dull symlaf yw defnyddio graddfa raddio, lle mae cleifion yn asesu eu lefel o ddewis ar gyfer canlyniad penodol ar raddfa ddigidol (megis graddfa linellol yn amrywio o 1 i 10), gyda'r canlyniadau iechyd mwyaf eithafol (megis iechyd cyflawn a marwolaeth) wedi'u lleoli ar y ddau ben. Dull arall a ddefnyddir yn gyffredin yw'r dull cyfnewid amser. Yn y dull hwn, mae angen i gleifion wneud penderfyniad ynghylch faint o amser iach y maent yn fodlon ei dreulio yn gyfnewid am gyfnod o iechyd gwael. Dull arall a ddefnyddir yn gyffredin yw'r dull gamblo safonol ar gyfer pennu defnyddioldeb. Yn y dull hwn, gofynnir i gleifion pa un o'r ddau opsiwn y maent yn ei ffafrio: naill ai byw nifer penodol o flynyddoedd mewn iechyd arferol gyda thebygolrwydd penodol (p) (t), a dwyn y risg o farwolaeth gyda thebygolrwydd 1-p; Naill ai sicrhau eich bod yn byw am t mlynedd o dan amodau iechyd croes. Gofynnwch i gleifion sawl gwaith ar werthoedd-p gwahanol nes nad ydynt yn dangos unrhyw ddewis ar gyfer unrhyw opsiwn, fel y gellir cyfrifo defnyddioldeb yn seiliedig ar ymatebion cleifion.
Yn ogystal â dulliau a ddefnyddir i ganfod dewisiadau cleifion unigol, mae dulliau hefyd wedi'u datblygu i sicrhau defnyddioldeb i'r boblogaeth o gleifion. Yn enwedig gall trafodaethau grŵp ffocws (dod â chleifion ynghyd i drafod profiadau penodol) helpu i ddeall eu safbwyntiau. Er mwyn crynhoi defnyddioldeb grŵp yn effeithiol, cynigiwyd amrywiol dechnegau trafod grŵp strwythuredig.
Yn ymarferol, mae cyflwyno defnyddioldeb yn uniongyrchol yn y broses diagnosis a thriniaeth glinigol yn cymryd llawer o amser. Fel ateb, mae holiaduron arolwg fel arfer yn cael eu dosbarthu i boblogaethau a ddewisir ar hap i gael sgoriau defnyddioldeb ar lefel y boblogaeth. Mae rhai enghreifftiau'n cynnwys yr holiadur 5-dimensiwn EuroQol, y ffurf fer pwysau defnyddioldeb 6-dimensiwn, y Mynegai Defnyddioldeb Iechyd, ac offeryn Holiadur Ansawdd Bywyd Craidd 30 Sefydliad Ymchwil a Thriniaeth Canser Ewropeaidd Penodol i Ganser.


Amser postio: Mehefin-01-2024