വീട് » പുതിയ വാർത്ത » AI പ്രതികരണ സമയം വേഗത്തിലാക്കാൻ ആപ്പിളും എൻവിഡിയയും സഹകരിക്കുന്നു
AI ഗ്രാഫിക്സുള്ള ആപ്പിളിന്റെയും എൻവിഡിയയുടെയും ലോഗോകൾ.

AI പ്രതികരണ സമയം വേഗത്തിലാക്കാൻ ആപ്പിളും എൻവിഡിയയും സഹകരിക്കുന്നു

വലിയ ഭാഷാ മോഡലുകളുടെ (LLMs) അനുമാന വേഗത ത്വരിതപ്പെടുത്തുന്നതിനും ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനും ലക്ഷ്യമിട്ടുള്ള ഒരു സഹകരണം ആപ്പിളും എൻവിഡിയയും അടുത്തിടെ പ്രഖ്യാപിച്ചു.

പരമ്പരാഗത ഓട്ടോറിഗ്രസീവ് എൽഎൽഎം അനുമാനത്തിന്റെ കാര്യക്ഷമതയില്ലായ്മയും പരിമിതമായ മെമ്മറി ബാൻഡ്‌വിഡ്ത്തും പരിഹരിക്കുന്നതിനായി, ആപ്പിളിന്റെ മെഷീൻ ലേണിംഗ് ഗവേഷകർ 2024 ന്റെ തുടക്കത്തിൽ "റീഡ്രാഫ്റ്റർ" (ആവർത്തന ഡ്രാഫ്റ്റ് മോഡൽ) എന്ന ഒരു അനുമാന ഡീകോഡിംഗ് സാങ്കേതികത പുറത്തിറക്കി ഓപ്പൺ സോഴ്‌സ് ചെയ്തു.

GitHub-ൽ നിന്നുള്ള റീഡ്രാഫ്റ്റർ മോഡൽ ഡയഗ്രം.
ചിത്ര ഉറവിടം: GitHub

നിലവിൽ, എൻ‌വിഡിയയുടെ സ്കേലബിൾ അനുമാന പരിഹാരമായ "TensorRT-LLM"-ൽ ReDrafter സംയോജിപ്പിച്ചിരിക്കുന്നു. ഈ പരിഹാരം "TensorRT" ഡീപ് ലേണിംഗ് കംപൈലർ ഫ്രെയിംവർക്കിനെ അടിസ്ഥാനമാക്കിയുള്ള ഒരു ഓപ്പൺ സോഴ്‌സ് ലൈബ്രറിയാണ്, ഇത് LLM അനുമാനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനും "Medusa" പോലുള്ള ഊഹക്കച്ചവട ഡീകോഡിംഗ് രീതികളെ പിന്തുണയ്ക്കുന്നതിനുമായി പ്രത്യേകം രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു.

എന്നിരുന്നാലും, ReDrafter-ന്റെ അൽഗോരിതങ്ങൾ മുമ്പ് ഉപയോഗിക്കാത്ത ഓപ്പറേറ്റർമാരെ ഉപയോഗിക്കുന്നതിനാൽ, Nvidia പുതിയ ഓപ്പറേറ്റർമാരെ ചേർക്കുകയോ നിലവിലുള്ളവയെ പൊതുവായതാക്കുകയോ ചെയ്തിട്ടുണ്ട്, ഇത് സങ്കീർണ്ണമായ മോഡലുകളുമായും ഡീകോഡിംഗ് രീതികളുമായും പൊരുത്തപ്പെടാനുള്ള TensorRT-LLM-ന്റെ കഴിവ് ഗണ്യമായി വർദ്ധിപ്പിക്കുന്നു.

GitHub-ൽ നിന്നുള്ള TensorRT-LLM ഇന്റഗ്രേഷൻ ഡയഗ്രം.
ചിത്ര ഉറവിടം: GitHub

മൂന്ന് പ്രധാന സാങ്കേതികവിദ്യകളിലൂടെ വലിയ ഭാഷാ മോഡലുകളുടെ (LLM) അനുമാന പ്രക്രിയയെ ReDrafter ത്വരിതപ്പെടുത്തുന്നുവെന്ന് റിപ്പോർട്ട് ചെയ്യപ്പെടുന്നു:

  • ആർ‌എൻ‌എൻ ഡ്രാഫ്റ്റ് മോഡൽ
  • ഡൈനാമിക് ട്രീ അറ്റൻഷൻ അൽഗോരിതം
  • വിജ്ഞാന വാറ്റിയെടുക്കൽ പരിശീലനം

ആർ‌എൻ‌എൻ ഡ്രാഫ്റ്റ് മോഡൽ റീഡ്രാഫ്റ്ററിന്റെ പ്രധാന ഭാഗമാണ്. എൽഎൽഎമ്മിന്റെ മറഞ്ഞിരിക്കുന്ന അവസ്ഥകളെ അടിസ്ഥാനമാക്കി അടുത്ത സാധ്യമായ പദ ശ്രേണി പ്രവചിക്കാൻ ഇത് ഒരു ആവർത്തന ന്യൂറൽ നെറ്റ്‌വർക്ക് (ആർഎൻഎൻ) ഉപയോഗിക്കുന്നു. ഇത് താൽക്കാലിക ആശ്രിതത്വങ്ങൾ പിടിച്ചെടുക്കുകയും പ്രവചന കൃത്യത മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു.

ഈ മോഡൽ പ്രവർത്തിക്കുന്ന രീതി ഇപ്രകാരമാണ്: LLM ടെക്സ്റ്റ് സൃഷ്ടിക്കുമ്പോൾ, അത് ആദ്യം ഒരു ഇനീഷ്യൽ വേഡ് സൃഷ്ടിക്കുന്നു, തുടർന്ന് RNN ഡ്രാഫ്റ്റ് മോഡൽ ഈ വാക്കും അവസാന ലെയറിന്റെ LLM-ന്റെ മറഞ്ഞിരിക്കുന്ന അവസ്ഥയും ഇൻപുട്ടായി ഉപയോഗിച്ച് ബീം സെർച്ച് നടത്തുന്നു, ഇത് ഒന്നിലധികം കാൻഡിഡേറ്റ് വേഡ് സീക്വൻസുകൾ സൃഷ്ടിക്കുന്നു.

ഒരു സമയം ഒരു വാക്ക് സൃഷ്ടിക്കുന്ന പരമ്പരാഗത ഓട്ടോറിഗ്രസീവ് എൽഎൽഎമ്മുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ആർഎൻഎൻ ഡ്രാഫ്റ്റ് മോഡലിന്റെ പ്രവചനങ്ങളിലൂടെ ഓരോ ഡീകോഡിംഗ് ഘട്ടത്തിലും റീഡ്രാഫ്റ്ററിന് ഒന്നിലധികം വാക്കുകൾ സൃഷ്ടിക്കാൻ കഴിയും, ഇത് മൂല്യനിർണ്ണയത്തിനായി എൽഎൽഎമ്മിനെ വിളിക്കേണ്ടതിന്റെ എണ്ണം ഗണ്യമായി കുറയ്ക്കുകയും അതുവഴി മൊത്തത്തിലുള്ള അനുമാന വേഗത മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു.

ആർ‌എൻ‌എൻ ഡ്രാഫ്റ്റ് മോഡൽ പ്രക്രിയ കാണിക്കുന്ന ഡയഗ്രം.
ചിത്രത്തിന്റെ ഉറവിടം: arXiv

ഡൈനാമിക് ട്രീ അറ്റൻഷൻ അൽഗോരിതം ബീം തിരയൽ ഫലങ്ങൾ ഒപ്റ്റിമൈസ് ചെയ്യുന്ന ഒരു അൽഗോരിതം ആണ്.

ബീം തിരയൽ പ്രക്രിയയിൽ, ഒന്നിലധികം കാൻഡിഡേറ്റ് സീക്വൻസുകൾ സൃഷ്ടിക്കപ്പെടുന്നു, അവയ്ക്ക് പലപ്പോഴും ഒരേ തുടക്കമുണ്ട്. ഡൈനാമിക് ട്രീ അറ്റൻഷൻ അൽഗോരിതം ഈ പൊതുവായ തുടക്കങ്ങളെ തിരിച്ചറിയുകയും സാധൂകരിക്കേണ്ട പദങ്ങളിൽ നിന്ന് അവയെ നീക്കം ചെയ്യുകയും ചെയ്യുന്നു, ഇത് LLM പ്രോസസ്സ് ചെയ്യേണ്ട ഡാറ്റയുടെ അളവ് കുറയ്ക്കുന്നു.

ചില സന്ദർഭങ്ങളിൽ, ഈ അൽഗോരിതം സാധൂകരിക്കേണ്ട പദങ്ങളുടെ എണ്ണം 30% മുതൽ 60% വരെ കുറയ്ക്കാൻ സഹായിക്കും. അതായത്, ഡൈനാമിക് ട്രീ അറ്റൻഷൻ അൽഗോരിതം ഉപയോഗിച്ച്, റീഡ്രാഫ്റ്ററിന് കമ്പ്യൂട്ടേഷണൽ റിസോഴ്‌സുകൾ കൂടുതൽ കാര്യക്ഷമമായി ഉപയോഗിക്കാൻ കഴിയും, ഇത് അനുമാന വേഗത കൂടുതൽ മെച്ചപ്പെടുത്തുന്നു.

ഡൈനാമിക് ട്രീ അറ്റൻഷൻ അൽഗോരിതം ചിത്രീകരിക്കുന്ന ഡയഗ്രം.
ചിത്ര ഉറവിടം: എൻവിഡിയ

അറിവ് വാറ്റിയെടുക്കൽ ഒരു വലിയ, സങ്കീർണ്ണമായ മോഡലിൽ (ടീച്ചർ മോഡൽ) നിന്ന് ചെറുതും ലളിതവുമായ ഒരു മോഡലിലേക്ക് (സ്റ്റുഡന്റ് മോഡൽ) അറിവ് കൈമാറുന്ന ഒരു മോഡൽ കംപ്രഷൻ ടെക്നിക്കാണ്. റീഡ്രാഫ്റ്ററിൽ, ആർ‌എൻ‌എൻ ഡ്രാഫ്റ്റ് മോഡൽ വിദ്യാർത്ഥി മോഡലായി പ്രവർത്തിക്കുന്നു, എൽ‌എൽ‌എമ്മിൽ (ടീച്ചർ മോഡൽ) നിന്ന് വിജ്ഞാന വാറ്റിയെടുക്കൽ വഴി പഠിക്കുന്നു. 

വിശദമായി പറഞ്ഞാൽ, ഡിസ്റ്റിലേഷൻ പരിശീലന പ്രക്രിയയിൽ, ഒരു വലിയ ഭാഷാ മാതൃക (LLM) അടുത്ത സാധ്യമായ പദങ്ങൾക്കായി "പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനുകളുടെ" ഒരു പരമ്പര നൽകുന്നു. ഒരു റിക്കറന്റ് ന്യൂറൽ നെറ്റ്‌വർക്ക് (RNN) ഡ്രാഫ്റ്റ് മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിന് ഡെവലപ്പർമാർ ഈ പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷൻ ഡാറ്റ ഉപയോഗിക്കുന്നു, തുടർന്ന് രണ്ട് മോഡലുകളുടെയും പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനുകൾ തമ്മിലുള്ള വ്യത്യാസം കണക്കാക്കുന്നു, ഒപ്റ്റിമൈസേഷൻ അൽഗോരിതങ്ങൾ വഴി ഈ വ്യത്യാസം കുറയ്ക്കുന്നു.

ഈ പ്രക്രിയയ്ക്കിടയിൽ, ആർ‌എൻ‌എൻ ഡ്രാഫ്റ്റ് മോഡൽ എൽ‌എൽ‌എമ്മിന്റെ പ്രോബബിലിറ്റി പ്രവചന പാറ്റേണുകൾ തുടർച്ചയായി പഠിക്കുന്നു, ഇത് പ്രായോഗിക പ്രയോഗങ്ങളിൽ എൽ‌എൽ‌എമ്മിന് സമാനമായ വാചകം സൃഷ്ടിക്കാൻ പ്രാപ്തമാക്കുന്നു.

വിജ്ഞാന വാറ്റിയെടുക്കൽ പരിശീലനത്തിലൂടെ, RNN ഡ്രാഫ്റ്റ് മോഡൽ ഭാഷയുടെ നിയമങ്ങളും പാറ്റേണുകളും നന്നായി പിടിച്ചെടുക്കുന്നു, അതുവഴി LLM-ന്റെ ഔട്ട്‌പുട്ട് കൂടുതൽ കൃത്യമായി പ്രവചിക്കുന്നു. ചെറിയ വലിപ്പവും കുറഞ്ഞ കമ്പ്യൂട്ടേഷണൽ ചെലവും കാരണം, പരിമിതമായ ഹാർഡ്‌വെയർ സാഹചര്യങ്ങളിൽ ReDrafter-ന്റെ മൊത്തത്തിലുള്ള പ്രകടനം ഇത് ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു.

NVIDIA H100 GPU-യിൽ ReDrafter-ന്റെ പ്രകടന മെച്ചപ്പെടുത്തൽ കാണിക്കുന്ന ഗ്രാഫ്.
ചിത്ര ഉറവിടം: അലിബാബ ക്ലൗഡ് ഡെവലപ്പർ കമ്മ്യൂണിറ്റി

ആപ്പിളിന്റെ ബെഞ്ച്മാർക്ക് ഫലങ്ങൾ കാണിക്കുന്നത്, NVIDIA H100 GPU-യിൽ ReDrafter-ന്റെ TensorRT-LLM-മായി സംയോജിപ്പിച്ച കോടിക്കണക്കിന് പാരാമീറ്ററുകളുള്ള പ്രൊഡക്ഷൻ മോഡൽ ഉപയോഗിക്കുമ്പോൾ, Greedy Decoding വഴി സെക്കൻഡിൽ സൃഷ്ടിക്കപ്പെടുന്ന ടോക്കണുകളുടെ എണ്ണം 2.7 മടങ്ങ് വർദ്ധിച്ചു എന്നാണ്.

കൂടാതെ, ആപ്പിളിന്റെ സ്വന്തം M2 അൾട്രാ മെറ്റൽ ജിപിയുവിൽ, റീഡ്രാഫ്റ്റർ 2.3 മടങ്ങ് അനുമാന വേഗത മെച്ചപ്പെടുത്തി. ആപ്പിളിന്റെ ഗവേഷകർ പ്രസ്താവിച്ചു, "പ്രൊഡക്ഷൻ ആപ്ലിക്കേഷനുകൾ പ്രവർത്തിപ്പിക്കാൻ എൽഎൽഎമ്മുകൾ കൂടുതലായി ഉപയോഗിക്കുന്നതിനാൽ, അനുമാന കാര്യക്ഷമത മെച്ചപ്പെടുത്തുന്നത് കമ്പ്യൂട്ടേഷണൽ ചെലവുകളെ ബാധിക്കുകയും ഉപയോക്തൃ-അവസാന ലേറ്റൻസി കുറയ്ക്കുകയും ചെയ്യും."

ആപ്പിളിന്റെ M2 അൾട്രാ മെറ്റൽ ജിപിയുവിൽ റീഡ്രാഫ്റ്ററിന്റെ പ്രകടന പുരോഗതി കാണിക്കുന്ന ഗ്രാഫ്.
ഉറവിട ചിത്രം: ആപ്പിൾ

ഔട്ട്‌പുട്ട് ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട് തന്നെ, ReDrafter GPU ഉറവിടങ്ങൾക്കായുള്ള ആവശ്യം കുറയ്ക്കുന്നു, ഇത് റിസോഴ്‌സ് പരിമിതമായ പരിതസ്ഥിതികളിൽ പോലും LLM-കളെ കാര്യക്ഷമമായി പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു, ഇത് വിവിധ ഹാർഡ്‌വെയർ പ്ലാറ്റ്‌ഫോമുകളിൽ LLM-കൾ ഉപയോഗിക്കുന്നതിനുള്ള പുതിയ സാധ്യതകൾ നൽകുന്നു എന്നത് ശ്രദ്ധിക്കേണ്ടതാണ്.

ആപ്പിൾ ഇതിനകം തന്നെ ഈ സാങ്കേതികവിദ്യ GitHub-ൽ ഓപ്പൺ സോഴ്‌സ് ചെയ്തിട്ടുണ്ട്, ഭാവിയിൽ, ഇതിൽ നിന്ന് പ്രയോജനം നേടുന്ന കമ്പനികളിൽ NVIDIA മാത്രമല്ല കൂടുതൽ കമ്പനികളും ഉൾപ്പെടും.

ഉറവിടം ഇഫാൻ

നിരാകരണം: മുകളിൽ നൽകിയിരിക്കുന്ന വിവരങ്ങൾ Cooig.com-ൽ നിന്ന് സ്വതന്ത്രമായി ifanr.com ആണ് നൽകുന്നത്. വിൽപ്പനക്കാരന്റെയും ഉൽപ്പന്നങ്ങളുടെയും ഗുണനിലവാരവും വിശ്വാസ്യതയും സംബന്ധിച്ച് Cooig.com യാതൊരു പ്രാതിനിധ്യവും വാറന്റിയും നൽകുന്നില്ല. ഉള്ളടക്കത്തിന്റെ പകർപ്പവകാശ ലംഘനങ്ങൾക്കുള്ള ഏതൊരു ബാധ്യതയും Cooig.com വ്യക്തമായി നിരാകരിക്കുന്നു.

ഒരു അഭിപ്രായം ഇടൂ

നിങ്ങളുടെ ഇമെയിൽ വിലാസം പ്രസിദ്ധീകരിച്ചു ചെയ്യില്ല. ആവശ്യമായ ഫീൽഡുകൾ അടയാളപ്പെടുത്തുന്നു *

ടോപ്പ് സ്ക്രോൾ